快速的 groq 托管的大型语言模型与浏览器卡顿

发布于 7 月 24 日

主要观点：chatcraft.org因通过 requestAnimationFrame()限制 LLM 聊天完成渲染而变得流畅且高性能，展示 LLM 的增量响应可解决其速度慢的问题，但存在增量进度指标与吞吐量的权衡，Web 浏览器引擎的性能架构会放大这种权衡，Groq 曾使 chatcraft.org 变慢，经分析发现是解析 markdown 并重新渲染为 HTML 开销大，通过将 LLM 提供的响应缓冲到 requestAnimationFrame()指示布局引擎准备好渲染时来修复，在 M3 Max 笔记本和低性能 Android 平板电脑上测试了不同模型的渲染效果。
关键信息：

[chatcraft.org]通过 requestAnimationFrame()优化性能。
解析 markdown 及重新渲染开销大导致卡顿。
修复方案是缓冲响应至布局引擎准备好渲染。
在不同设备上测试不同模型的渲染情况。
重要细节：
朋友报告 chatcraft 在 LLM 响应时会使 Firefox 挂起，且在 Chrome 中 UI 有时会停止响应长达一分钟。
用 devtools 追踪到问题与更新 DOM 导致的 reflows 等有关。
最终解决方案是缓冲响应并在布局引擎准备好时渲染。
在 M3 Max 笔记本上 gpt-4o 约每 3 个令牌可渲染，llama-70b 约每 45 - 60 个令牌可渲染，groq llama-8b 约每 120 个令牌可渲染，在低性能 Android 平板电脑上效果更显著，浏览器引擎在 groq 响应前约进行 2 次更新。

阅读 13