GPT-3.5 及最新模型

发布于 2025-03-12

主要观点：围绕 LLM 基准测试展开讨论，以在 Rust 中创建自定义事件总线为例，探讨不同模型在处理代码相关问题时的表现。
关键信息：

展示了一个 Rust 中创建自定义事件总线的代码，存在仅允许每个事件一个处理程序的缺陷。
不同模型如 Claude 3.5、3.7，GPT-3.5、4.5-preview、4o 等对该代码中处理程序类型等问题给出不同的看法和建议。
Claude 3.7 较为简洁且指出当前实现限制，GPT-4.5-preview 指出原处理程序类型的问题并给出改进建议，包括支持多个处理程序及通过引用传递参数等。
GPT-3.5 给出修改处理程序 HashMap 类型以支持注册多个函数的方法，但添加了未要求的unregister方法。
重要细节：
各模型在处理代码中的类型安全性、线程安全性、可扩展性等方面有不同的思考和建议，有的模型建议更灵活的泛型使用，有的强调线程安全等。
不同模型的表现各异，Claude 3.7 和 GPT-4.5-preview 表现较好，GPT-3.5 相对较稳定但也有不足，Claude 3.5 等模型表现不佳甚至有误导性。

总结结论：Claude 3.7 和 GPT-4.5-preview 成功，GPT-4.5 因发现所有权问题获加分，GPT-3.5 稳定但表现一般，Claude 3.5 等模型不成功且有误导，Gemini 2.0 Pro 不应使用。

阅读 31