用于反编译汇编代码的 AI 模型

主要观点：

反向工程中，将低级汇编代码转换回人类可读源代码是关键问题，文中总结了 RevEng.AI 的相关工作，通过开发基础 AI 模型进行反编译。
反编译汇编代码很重要，能在恶意软件分析、遗留代码维护等方面发挥作用，但面临固有挑战。
传统反编译依赖预定义规则和启发式方法，AI 反编译则直接从大数据集中学习模式，有输出类似人类代码、不受手工规则限制等优势。
以 HumanEval 基准测试为例，展示了 AI 反编译能完美复制函数逻辑，优于传统反编译工具 Ghidra。
介绍了 AI 反编译的问题设置、数据集和训练，使用编码器-解码器 Transformer 模型，注重数据集规模、多样性和质量。
通过注释示例展示了 AI 反编译的效果，在 HumanEval 基准测试中，RevEng AI 反编译器性能显著优于 Ghidra 和 LLM4Decompile 模型。
得出 AI 反编译有前景，正在探索多种改进途径，如扩展数据集、探索中间表示等，且 AI 反编译器已对 RevEng.AI 用户开放。

关键信息：

重要细节：