蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

最近，国内权威医疗大模型评测平台MedBench在官网更新了榜单。

多个医疗AI产品及研究团队入榜，其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97.5、自测榜单98.2的高分再度夺得双料冠军。

（MedBench评测榜单截图）

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

（MedBench自测榜单截图）

MedBench测评结果显示，蚂蚁医疗大模型在医学知识问答、医学语言生成、复杂医学推理三类单项中位居第一，同时，在医学语言理解和医疗安全和伦理等纬度也有突出表现。在此前的榜单综合测评中，蚂蚁医疗大模型也长期位居综合榜第一。

医疗行业是复杂度较高的领域，医疗大模型实时评估体系对应用稳定落地尤为关键。MedBench为中文医疗大语言模型提供了一个公平、透明且科学的评估标准，蚂蚁医疗大模型登顶榜单，意味着其当前的技术能力转化为医疗AI产品具备专业度和领先性。

据了解，蚂蚁医疗健康团队近期完成了基于强化学习的新一代医疗推理模型研发。AI引擎升级后，该垂直行业大模型不仅具备“医学思维”推理能力，还能完成“图、文、音视频等”多模态交互。基于此，蚂蚁医疗大模型添加百亿级中英文图文、千亿级医疗文本语料及千万级高质量医疗知识图谱进行专业知识训练，经过医患诊疗、药厂等真实场景问答的多任务微调，以及数百个专业医学团队、医生标注数据的强化学习。以医学报告、药品、毛发等图像识别为例，目前该模型准确率达90%以上。

在安全性上，蚂蚁医疗大模型集合了蚂蚁集团在隐私安全风控方面的技术优势，并在数据使用的去标识化方面遵循安全隐私标准。从去年7月推出以来，还面向行业开放了配套的“可信一体机+可信云”解决方案，保障数据隐私与算力效率，为医院、医疗机构提供可靠的本地部署与数据保护支持。

据悉，蚂蚁医疗健康成立至今已有10年，从2023年开始进军医疗AI领域，除了投入垂直领域大模型技术研发外，在AI应用层面同样进展迅速。

公开资料显示，其与浙江卫健委联合推出全国首个省级官方AI健康应用“安诊儿”，已累计服务近3000万人次，覆盖浙江省内1000余家医疗机构。去年7月，与国内头部三家医院、权威医疗机构成立AI医疗创新应用“联盟”以来，蚂蚁医疗健康已与各地卫健委、医保局、医院、医生合作研发了近百个医生智能体，在完成对好大夫在线收购后，双方在AI辅助医生工作方面开展探索，推出“AI科普助手”等系列产品。截至目前，蚂蚁医疗大模型已经成为业内应用场景最丰富、与医疗机构、医生、医院共建最深的垂类大模型之一。

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

量子位

引用和评论

蚂蚁数科加速推进AI战略，设立“AI+产业创新”实验室

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

一夜之间，萝卜快跑拿掉了所有安全员

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

AI三小时做的小游戏，9天赚12万！马斯克：AI游戏前景无限