Claude 3 系列模型发布
Anthropic 推出了 Claude 3 系列模型,声称其性能超越了包括 GPT-4 在内的其他行业模型。Claude 3 系列包括三款不同模型:Haiku、Sonnet 和 Opus,按能力从低到高排列,旨在满足用户在智能、速度和成本方面的多样化需求。
性能优势
Anthropic 提供了对比数据,显示 Opus 在所有评估方面均优于 OpenAI 的 GPT-4 模型。例如,在研究生级专家推理(GPQA)类别中,Opus 得分为 50.4%,显著高于 GPT-4 的 35.7%。在基础数学测试中,Opus 得分为 95%,超过 GPT-4 的 92%。在 MMLU 知识测试中,Opus 得分为 86.8%,略高于 GPT-4 的 86.4%。
多模态能力
Claude 3 模型具备多模态能力,能够处理多种视觉格式,包括照片、表格、图表和技术图表。
上下文理解与准确性
Claude 3 在上下文理解方面有所改进,减少了拒绝回答无害用户请求的可能性。Anthropic 强调在大规模应用中保持高准确性,利用与已知模型弱点相关的复杂事实问题进行分类。模型的回答分为正确、错误或承认不确定,当模型缺乏答案时会承认而不是提供错误信息。这种方法使 Opus 的响应准确性比 Claude 2.1 提高了一倍。
负责任的人工智能开发
Anthropic 强调,Claude 3 系列模型在设计上尽可能可靠,有专门团队识别和减轻如错误信息和自主复制等风险。
近人类表现
Opus 作为 Claude 3 系列的先锋,因其在复杂任务上的“近人类”理解和表达能力而受到赞扬。然而,Hugging Face 的联合创始人兼 CEO Clement Delangue 提醒,尽管 AI/Claude 很酷,但它并不是人类,而是一堆代码和概率算法,通过 API 接收输入并生成输出。
安全性与隐私
Anthropic 声称已提高了模型的安全性、透明性和隐私性,同时减少了偏见并促进中立性。尽管相比之前版本有显著进步,Claude 3 模型仍保持 Anthropic 负责任扩展政策的 ASL-2 安全级别。
开发者访问
Opus 和 Sonnet 模型可通过 Claude API 供开发者使用,Sonnet 还可以在 Amazon Bedrock 和 Google Cloud 的 Vertex AI Model Garden 的私人预览版中访问。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。