评估相似性摘要：关于 TLSH、ssdeep 和 sdhash 针对常见文件修改的研究

主要观点：

关键信息：

实验设置包括多种文件类型数据集，如纯文本文档、可执行文件、压缩文件和嵌入文件等。
介绍了三种相似性摘要的计算方法和比较方式，TLSH 计算为 35 字节摘要，通过tlsh.hash和tlsh.diff比较；ssdeep 计算方式及通过ssdeep.compare转换为距离；sdhash 使用CreateSdbfFromFilename和Compute计算，通过Compare(...)比较。
计算文件数据集的成对距离，可在多个数据集或单个数据集内评估，生成距离矩阵。通过可视化距离矩阵可直观了解文件相似性。

重要细节：

纯文本文档数据集通过随机生成段落并删除部分段落生成不同版本。
可执行文件数据集以游戏《矮人要塞》的不同版本进行评估。
压缩文件数据集比较《矮人要塞》的 Windows 版本可执行文件与其压缩包。
嵌入文件数据集将图像嵌入 Word 文档中进行评估。
实验结果显示，TLSH 在常规文件相似性检测中表现最佳，但在检测嵌入文件和压缩文件相似性时不佳；SDHash 在压缩文件上表现较好；ssdeep 因仅适用于小文件而性能较差。

结论：安全从业者应采用多种相似性摘要的混合方法来检测不同类型的相似文件，虽 TLSH 和 SDHash 覆盖大部分文件修改类型，但仍存在可被威胁行为者利用以规避检测的差距。