我正在使用iTextSharp从PDF文件中读取文本。但是,有时我无法提取文本,因为PDF文件仅包含图像。我每天都下载相同的PDF文件,我想看看PDF是否已被修改。如果无法获得文本和修改日期,MD5校验和是判断文件是否已更改的最可靠方法吗?
如果是这样,将不胜感激一些代码示例,因为我在密码学方面没有太多经验。
最佳答案
使用System.Security.Cryptography.MD5非常简单:
using (var md5 = MD5.Create())
{
using (var stream = File.OpenRead(filename))
{
return md5.ComputeHash(stream);
}
}
(我相信实际上不需要使用所使用的MD5实现,但是无论如何我还是会这样做。)
之后如何比较结果取决于您自己;您可以将字节数组转换为例如base64,或直接比较字节。 (请注意,数组不会覆盖
Equals
。使用base64更容易解决问题,但如果您只对比较哈希值感兴趣,则使用效率稍低。)如果您需要将散列表示为字符串,则可以使用
BitConverter
将其转换为十六进制:static string CalculateMD5(string filename)
{
using (var md5 = MD5.Create())
{
using (var stream = File.OpenRead(filename))
{
var hash = md5.ComputeHash(stream);
return BitConverter.ToString(hash).Replace("-", "").ToLowerInvariant();
}
}
}