前端开发因大型语言模型(LLM)迎来新一波自动化浪潮,从生成 UI 代码到审查拉取请求,这些 AI 模型有望加快工作流程。三位专家分享了他们对此的看法:
- Tammuz Dubnov:AutonomyAI 的创始人兼 CTO,在其公司的设计到代码管道中对 LLM 进行了多项研究。在首次测试中,将 Grok 4 与 Anthropic 的 Claude Opus 4.1 比较,发现较新的模型表现不佳,Grok 输出存在问题,而 Claude 保留了布局逻辑且幻觉少,延迟也是问题。最近将 OpenAI 的新 GPT-5 与 Claude Opus 4.1 比较,结果更平衡,GPT-5 更严格遵循代码库约定和关注文件结构,输出质量相近,但 GPT-5 运行更经济,现在他的团队将两个模型一起使用以提高可靠性。
- Austin Starks:软件工程师和 NexusTrade 的创始人,对几个领先的 LLM 进行了并排比较,包括 Grok 3、Google 的 Gemini 2.5 Pro、DeepSeek V3、OpenAI 的最新版本(o1-pro)和 Anthropic 的 Claude 3.7 Sonnet。结论与 Dubnov 相似,Gemini 和 Deepseek 交付了符合要求的页面,而 Claude 表现突出,生成的页面包含未明确要求的功能且代码量最大,最终 Claude 3.7 Sonnet 被评为赢家,他也指出最佳的 LLM 取决于项目优先级。
- Alex Kondov:前端工程师和“前端工程师对 LLM 的看法”的作者,认为最大的挑战是使 LLM 在生产中可靠工作,主要使用 OpenAI 的 GPT 模型,指出其存在不确定性,即使要求严格的 JSON 格式,输出也常变化。比较了基于提示的工作流程和训练或微调模型,后者对小团队不切实际,推荐使用 RAG 管道或函数调用,减少幻觉并将复杂任务从 LLM 转移。他认为对于前端任务没有单一的“最佳”LLM,而是选择有能力的模型并结合可靠的工程实践,通过精心的提示工程可引导通用模型有效执行前端任务。
结论:专家观点强调输出质量、速度和可靠性,像 Claude 这样全面的模型是较好选择,但不能一概而论,需根据具体前端要求评估模型效果,通过类似专家的测试可获得更准确的评估。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。