我正在使用iTextSharp从PDF文件中读取文本。但是,有时我无法提取文本,因为PDF文件仅包含图像。我每天都下载相同的PDF文件,我想看看PDF是否已被修改。如果无法获得文本和修改日期,MD5校验和是判断文件是否已更改的最可靠方法吗?

如果是这样,将不胜感激一些代码示例,因为我在密码学方面没有太多经验。

最佳答案

使用System.Security.Cryptography.MD5非常简单:

using (var md5 = MD5.Create())
{
    using (var stream = File.OpenRead(filename))
    {
        return md5.ComputeHash(stream);
    }
}

(我相信实际上不需要使用所使用的MD5实现,但是无论如何我还是会这样做。)

之后如何比较结果取决于您自己;您可以将字节数组转换为例如base64,或直接比较字节。 (请注意,数组不会覆盖Equals。使用base64更容易解决问题,但如果您只对比较哈希值感兴趣,则使用效率稍低。)

如果您需要将散列表示为字符串,则可以使用BitConverter将其转换为十六进制:
static string CalculateMD5(string filename)
{
    using (var md5 = MD5.Create())
    {
        using (var stream = File.OpenRead(filename))
        {
            var hash = md5.ComputeHash(stream);
            return BitConverter.ToString(hash).Replace("-", "").ToLowerInvariant();
        }
    }
}

08-04 15:24