评估相似性摘要:关于 TLSH、ssdeep 和 sdhash 针对常见文件修改的研究

主要观点:

  • 数字取证领域常用签名识别恶意可执行文件,签名形式多样,如加密哈希和 YARA 工具等,文件行为也可提供系统被入侵的指标。
  • 加密哈希、YARA 规则和入侵指标常与可信或恶意签名数据库对比,但哈希易被恶意软件作者规避,现代云环境也使行为检测易被规避,仅匹配已知指标会遗漏未知威胁。
  • 提出“相似性摘要”以提高文件识别率,文中评估了 TLSH、ssdeep 和 sdhash 三种相似性摘要在常见文件修改中的效果。

关键信息:

  • 实验设置包括多种文件类型数据集,如纯文本文档、可执行文件、压缩文件和嵌入文件等。
  • 介绍了三种相似性摘要的计算方法和比较方式,TLSH 计算为 35 字节摘要,通过tlsh.hashtlsh.diff比较;ssdeep 计算方式及通过ssdeep.compare转换为距离;sdhash 使用CreateSdbfFromFilenameCompute计算,通过Compare(...)比较。
  • 计算文件数据集的成对距离,可在多个数据集或单个数据集内评估,生成距离矩阵。通过可视化距离矩阵可直观了解文件相似性。

重要细节:

  • 纯文本文档数据集通过随机生成段落并删除部分段落生成不同版本。
  • 可执行文件数据集以游戏《矮人要塞》的不同版本进行评估。
  • 压缩文件数据集比较《矮人要塞》的 Windows 版本可执行文件与其压缩包。
  • 嵌入文件数据集将图像嵌入 Word 文档中进行评估。
  • 实验结果显示,TLSH 在常规文件相似性检测中表现最佳,但在检测嵌入文件和压缩文件相似性时不佳;SDHash 在压缩文件上表现较好;ssdeep 因仅适用于小文件而性能较差。

结论:安全从业者应采用多种相似性摘要的混合方法来检测不同类型的相似文件,虽 TLSH 和 SDHash 覆盖大部分文件修改类型,但仍存在可被威胁行为者利用以规避检测的差距。

阅读 55
0 条评论