专家称这是用于前端任务的最佳大型语言模型

前端开发因大型语言模型（LLM）迎来新一波自动化浪潮，从生成 UI 代码到审查拉取请求，这些 AI 模型有望加快工作流程。三位专家分享了他们对此的看法：

Tammuz Dubnov：AutonomyAI 的创始人兼 CTO，在其公司的设计到代码管道中对 LLM 进行了多项研究。在首次测试中，将 Grok 4 与 Anthropic 的 Claude Opus 4.1 比较，发现较新的模型表现不佳，Grok 输出存在问题，而 Claude 保留了布局逻辑且幻觉少，延迟也是问题。最近将 OpenAI 的新 GPT-5 与 Claude Opus 4.1 比较，结果更平衡，GPT-5 更严格遵循代码库约定和关注文件结构，输出质量相近，但 GPT-5 运行更经济，现在他的团队将两个模型一起使用以提高可靠性。
Austin Starks：软件工程师和 NexusTrade 的创始人，对几个领先的 LLM 进行了并排比较，包括 Grok 3、Google 的 Gemini 2.5 Pro、DeepSeek V3、OpenAI 的最新版本（o1-pro）和 Anthropic 的 Claude 3.7 Sonnet。结论与 Dubnov 相似，Gemini 和 Deepseek 交付了符合要求的页面，而 Claude 表现突出，生成的页面包含未明确要求的功能且代码量最大，最终 Claude 3.7 Sonnet 被评为赢家，他也指出最佳的 LLM 取决于项目优先级。
Alex Kondov：前端工程师和“前端工程师对 LLM 的看法”的作者，认为最大的挑战是使 LLM 在生产中可靠工作，主要使用 OpenAI 的 GPT 模型，指出其存在不确定性，即使要求严格的 JSON 格式，输出也常变化。比较了基于提示的工作流程和训练或微调模型，后者对小团队不切实际，推荐使用 RAG 管道或函数调用，减少幻觉并将复杂任务从 LLM 转移。他认为对于前端任务没有单一的“最佳”LLM，而是选择有能力的模型并结合可靠的工程实践，通过精心的提示工程可引导通用模型有效执行前端任务。

结论：专家观点强调输出质量、速度和可靠性，像 Claude 这样全面的模型是较好选择，但不能一概而论，需根据具体前端要求评估模型效果，通过类似专家的测试可获得更准确的评估。