Anthropic发布Claude 3模型，重点介绍Opus及其近乎人类的能力

Claude 3 系列模型发布

Anthropic 推出了 Claude 3 系列模型，声称其性能超越了包括 GPT-4 在内的其他行业模型。Claude 3 系列包括三款不同模型：Haiku、Sonnet 和 Opus，按能力从低到高排列，旨在满足用户在智能、速度和成本方面的多样化需求。

性能优势

Anthropic 提供了对比数据，显示 Opus 在所有评估方面均优于 OpenAI 的 GPT-4 模型。例如，在研究生级专家推理（GPQA）类别中，Opus 得分为 50.4%，显著高于 GPT-4 的 35.7%。在基础数学测试中，Opus 得分为 95%，超过 GPT-4 的 92%。在 MMLU 知识测试中，Opus 得分为 86.8%，略高于 GPT-4 的 86.4%。

多模态能力

Claude 3 模型具备多模态能力，能够处理多种视觉格式，包括照片、表格、图表和技术图表。

上下文理解与准确性

Claude 3 在上下文理解方面有所改进，减少了拒绝回答无害用户请求的可能性。Anthropic 强调在大规模应用中保持高准确性，利用与已知模型弱点相关的复杂事实问题进行分类。模型的回答分为正确、错误或承认不确定，当模型缺乏答案时会承认而不是提供错误信息。这种方法使 Opus 的响应准确性比 Claude 2.1 提高了一倍。

负责任的人工智能开发

Anthropic 强调，Claude 3 系列模型在设计上尽可能可靠，有专门团队识别和减轻如错误信息和自主复制等风险。

近人类表现

Opus 作为 Claude 3 系列的先锋，因其在复杂任务上的“近人类”理解和表达能力而受到赞扬。然而，Hugging Face 的联合创始人兼 CEO Clement Delangue 提醒，尽管 AI/Claude 很酷，但它并不是人类，而是一堆代码和概率算法，通过 API 接收输入并生成输出。

安全性与隐私

Anthropic 声称已提高了模型的安全性、透明性和隐私性，同时减少了偏见并促进中立性。尽管相比之前版本有显著进步，Claude 3 模型仍保持 Anthropic 负责任扩展政策的 ASL-2 安全级别。

开发者访问

Opus 和 Sonnet 模型可通过 Claude API 供开发者使用，Sonnet 还可以在 Amazon Bedrock 和 Google Cloud 的 Vertex AI Model Garden 的私人预览版中访问。