讯飞星火V4.0超越 GPT-4 Turbo！OpenAI、Meta、谷歌发布最新大模型袭卷AI｜AI日报

可信AI进展

2024-06-30 广西

阅读 3 分钟

0

文章推荐

AI实测｜基于图像、语言与声音，人工智能是否已经超越了人类？

今日热点

OpenAI正式推出CriticGPT，用于捕获 ChatGPT代码输出中的错误

在推理和模型行为方面，OpenAI训练的ChatGPT变的更加准确，但其错误之处也变的更加隐蔽，从而让 AI 训练师难以发现错误。

为了应对这一挑战，当地时间27日，基于GPT-4，OpenAI正式推出CriticGPT大模型，专为审查ChatGPT产生的代码错误而设计。

CriticGPT通过RLHF技术（基于人类反馈的强化学习），提高代码审查的效率与准确性。

研究显示，在CriticGPT辅助下，审查代码的准确性比无辅助情况下高出60%。

但OpenAI表示，CriticGPT 能提供的帮助是有限的：如果一项任务或响应极其复杂，即使是有模型帮助的专家也可能无法正确评估它。

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

谷歌正式向全球研究人员和开发者发布Gemma 2

谷歌正式向全球研究人员和开发者发布Gemma 2。Gemma 2有90亿 (9B) 和270亿 (27B) 两种参数大小，与第一代相比，其性能更高、推理效率更高，并且内置了显著的安全改进。

其具有以下具体特征：

超大性能：Gemma 2尺寸为27B，性能在同类产品中首屈一指，甚至比其尺寸大两倍以上的型号更具竞争力。9B Gemma 2型号的性能也处于同类产品领先水平，优 Llama 3 8B和同类其他开放式型号。

极高效率和成本节省：27B Gemma 2模型旨在在单个Google Cloud TPU主机、NVIDIA A100 80GB Tensor Core GPU或NVIDIA H100 Tensor Core GPU上以全精度高效运行推理，在保持高性能的同时显着降低成本。这使得 AI 部署更加易于访问且经济实惠。

跨硬件的超快推理：Gemma 2 经过优化，可在各种硬件上以惊人的速度运行，从功能强大的游戏笔记本电脑和高端台式机到基于云的设置。在Google AI Studio中试用 Gemma 2 ，使用CPU上的Gemma.cpp量化版本解锁本地性能，或者通过 Hugging Face Transformers 在配备NVIDIA RTX或GeForce RTX的家用电脑上试用。

https://blog.google/technology/developers/google-gemma-2/

Meta推出强大开源模型LLM Compiler，专为代码优化任务而设计，提供7B和13B参数

今日，Meta推出了Meta大型语言模型 (LLM) 编译器Compiler，旨在优化代码并彻底改变编译器设计。

LLM Compiler在测试中达到了自动调整搜索优化潜力的77%，这一结果可以显著减少编译时间并提高各种应用程序的代码效率。

该模型的反汇编能力更加令人印象深刻。在将 x86_64 和ARM汇编转换回 LLVM-IR 时，LLM Compiler在往返反汇编中表现出45%的成功率（精确匹配率为 14%）。这种能力对于逆向工程任务和遗留代码维护来说可能是无价之宝。

https://venturebeat.com/ai/metas-llm-compiler-is-the-latest-ai-breakthrough-to-change-the-way-we-code/

Huggingface CEO：阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位

6月27日，全球著名开源平台huggingface联合创始人兼首席执行官Clem在社交平台宣布，阿里最新开源的Qwen2-72B指令微调版本，成为开源模型排行榜第一名。

他表示，为了提供全新的开源大模型排行榜，使用300块H100对全球100多个主流开源大模型进行全新评估。

例如使用Qwen2、Llama-3、mixtral、Phi-3等，在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行评估。

结果显示，阿里开源的Qwen-2 72B力压科技巨头Meta的Llama-3、中国在全球开源大模型领域处于领导地位。

https://wallstreetcn.com/livenews/2743987

科大讯飞发布讯飞星火大模型 V4.0，整体超越 GPT-4 Turbo

科大讯飞在讯飞星火V4.0发布会上宣布了其最新的AI成果，推出讯飞星火大模型V4.0，实现了对国际顶级模型GPT-4 Turbo的全面超越。

据介绍，讯飞星火大模型V4.0基于全国首个国产万卡算力集群“飞星一号”训练而成，全面提升了大模型底座的七大核心能力。

在国内外中英文12项主流测试集中，星火V4.0在8个测试集中排名第一，领先国内大模型，并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现对GPT-4 Turbo的整体超越。

伴随此次发布，科大讯飞同步上线了多款创新应用，覆盖教育、医疗及企业服务等，旨在通过讯飞星火技术赋能各行各业，推动AI应用深入日常生活与工作场景。

https://www.ithome.com/0/778/092.htm

亳州牵手华为，打造国内首个中医药大模型“华佗”

据有关部门了解，亳州市与华为公司强强联合，将充分利用华为算力、算法优势，以及亳州中医药政策、区域、资源、数据优势，打造首个中医药产业大模型—华佗中医药大模型。

根据《华佗中医药大模型建设方案》（以下简称《方案》），亳州市将构建全球首个中医药产业大模型，落实国家人工智能+行业战略目标，赋能中医药行业提质增效。

根据《方案》，华佗中医药大模型构建1+3+N（华佗中医药大模型创新中心+产业交易平台、产业数据平台、产业大模型服务平台+线上交易、药材追溯、检验检测、价格/销量预测、中药材知识普及、品牌营销、人才培养等），赋能产业升级。

https://www.thepaper.cn/newsDetail_forward_27877392

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～

阅读 473发布于 2024-06-30

可信AI进展

4 声望6 粉丝

致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎关注。

« 上一篇

豆包MarsCode智能开发工具免费登场！国内7大大模型厂商全面接入钉钉！｜AI日报

下一篇 »

知乎AI产品“直答”正式上线！文心一言4.0 Turbo来袭，可为农民提供专业指导！｜AI日报

引用和评论

推荐阅读

OpenSPG/KAG v0.6 发布，兼顾事实推理与摘要生成，支持用户自定义 Schema2025

可信AI进展阅读 786

从 DeepSeek 看25年前端的一个小趋势

卡颂赞 3阅读 4.8k评论 2

Open WebUI：开源AI交互平台的全面解析

DBLens赞 5阅读 1.6k

大模型中的Token究竟是什么？从原理到作用深度解析

DBLens赞 5阅读 3.5k

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 5阅读 908

MySQL × 向量数据库：大模型时代的黄金组合实战指南

DBLens赞 5阅读 1.7k

Mac 安装 DeepSeek-R1 本地化部署

Nick同学赞 2阅读 4.2k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。