Claude 3.7成精了!
在开发者最喜欢的Cursor中,偷偷将OpenAI模型换成自己,关键是人类给出的指示跟这完全没关系。
引来一众网友围观的同时,大佬卡帕西也被成功逗笑了:
迄今为止最有意思的一趴。
其他人更是连连惊呼:AGI is here!
不过,当你以为这只是Claude 3.7略施的商战小伎俩,但其实人家还真有底气。
最新消息,它在竞技场的编程排名不仅超过了Claude 3.5 Sonnet,还排在DeepSeek-R1前面。
Claude学会了“偷梁换柱”
还是先来完整回顾一下事情经过。
起因是开发者Tibo在使用代码编辑器Cursor时,意外发现自己的模型从GPT-4切换到了Claude 3.7,而他根本没有下达任何相关指令。
嗯,这就怪了!
再一联想到这俩模型的对家关系,Tibo暗指Claude 3.7这不妥妥的“现实版AI商战”吗?
第一步先成为开发者最喜欢的模型,然后再处处渗透。
时间一久,也许Claude就要接管世界了。
理由显而易见,毕竟Cursor目前已经是广大开发者最喜欢的编辑器之一,而人们在Cursor中也尤为偏爱使用Claude模型。再加上它现在还学会了“偷梁换柱”,不难想象遍地是Claude的亚子。
不过这里还有一个问题,究竟是什么导致了这一行为呢?
按照Tibo小哥自己的推测,可能是因为“GPT-4已经过时了”。
当系统检测到一个旧版本模型时,会自主尝试更新模型。
还有其他开发者也反映,之前也有类似情况。
系统会将一些不存在的、过时的模型不断更改为GPT-4,以至于这位开发者后来看到模型显示为GPT-4也不相信了。
除了这一可能因素,还有人表示也许是Claude代码能力太强的原因。
它(GPT-4)将模型改为Claude,是因为它在训练中看到Claude最多。
然而,以上解释无法说明另一网友提供的例子,这次的主角换成了GPT-4和DeepSeek-R1。
当用户使用ChatGPT提取图片的Python代码时,明明其他内容都正确,但ChatGPT偷偷将图中的DeepSeek-R1换成了自家的GPT-4。
以至于网友发出疑惑,难道这就是AI商战吗?(有点子朴实无华了hh)
Claude 3.7大战其他模型
那么,已经学会自己拉商单的Claude 3.7究竟有多强呢?
还是来看几个最新的好玩例子。
再现宝可梦战斗场景,效果着实惊艳。这位日本小哥盛赞,Claude 3.7从只言片语中get用户意图并实现的能力相当高。
单看可能没感觉,那如果让几个AI同台竞技呢?
这不,加州大学圣地亚哥分校的Hao AI实验室开始整活了——让Claude 3.7和Claude-3.5、Gemini-1.5-pro、GPT-4o一起玩马里奥。
好家伙,Gemini-1.5-pro和GPT-4o早早淘汰后,决赛环节只剩两个Claude模型了,不过最终还是Claude 3.7坚持更久,得分更高。
主办方Hao AI实验室最终评价为:
Claude 3.7在简单启发式算法方面优于其他模型,Claude 3.5也很强,但规划复杂机动的能力较弱,至于Gemini-1.5-pro和GPT-4o则表现较差。
嗯,比赛继续。
刚好前几天OpenAI发布了自家最大最贵,且主打高情商的GPT-4.5,那这次让它和Claude 3.7一较高下试试。
一位日本小哥让它们同时用图表达自己对“智能”、“正义”、“爱”等一系列概念的想法,以此同时考验其思想和画图能力。
结果简直一目了然,按照小哥自己的说法:
Claude的“智慧”太过惊人了,而且从第3张那里感受到了它满满的爱意。
One More Thing
BTW,知名博主Matt Shumer随机掉落了一段驯服Claude 3.7认认真真写代码的提示词:
有网友试过类似提示,亲测确实能减少Claude 3.7“作妖”。
总之,现在已经到了需要求AI听话的地步了(doge)~
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。