研究称ChatGPT能力下降,但一些专家并不认同

研究背景与主要发现

斯坦福大学和加州大学伯克利分校的研究人员于周二发布了一篇研究论文,探讨了GPT-4在不同时间点的输出变化。论文指出,GPT-4在编码和组合任务上的表现可能在过去几个月有所下降,尤其是在识别质数的任务中,准确率从3月的97.6%骤降至6月的2.4%。相比之下,GPT-3.5在同一时期的性能有所提升。

研究方法与争议

研究通过API访问测试了2023年3月和6月版本的GPT-3.5和GPT-4,任务包括数学问题解决、敏感问题回答、代码生成和视觉推理。尽管研究结果支持GPT-4性能下降的观点,但部分专家对研究方法和结论提出质疑。例如,普林斯顿大学教授Arvind Narayanan指出,研究在评估代码生成能力时,仅关注代码是否可直接执行,而非其正确性。

OpenAI的回应与行业观点

OpenAI始终否认GPT-4性能下降的说法,并强调每个新版本都比前一个更智能。OpenAI产品副总裁Peter Welinder表示,用户使用量增加可能导致之前未注意到的问题显现。此外,AI研究员Simon Willison认为,研究结果可能受到模型微调的影响,且研究方法存在局限性,例如测试温度设置过低,不符合实际使用场景。

模型透明度问题

研究引发了对OpenAI模型透明度的广泛讨论。OpenAI对GPT-4的训练材料、源代码和架构细节保持封闭,导致研究人员难以准确评估模型性能。AI领域缺乏标准化基准,进一步加剧了这一问题。Hugging Face研究员Sasha Luccioni呼吁模型开发者提供更透明的基准测试结果,以便科学验证和比较。

未来建议

为解决模型不稳定性和研究不确定性,专家建议采用开源或源可用的模型,如Meta的Llama。通过提供模型的权重文件,研究人员可以在同一基线基础上工作,确保结果的可重复性。此外,模型开发者应在每次发布时提供详细的基准测试结果,包括原始数据,以便更全面地评估模型性能。

总结

尽管研究指出GPT-4性能可能下降,但其方法和结论仍存在争议。OpenAI的封闭性及其缺乏透明度的发布方式成为核心问题。未来,开源模型和标准化基准可能为解决这些问题提供方向,同时推动AI领域的科学研究和应用开发。

阅读 22
0 条评论