快速的 groq 托管的大型语言模型与浏览器卡顿

主要观点:chatcraft.org因通过 requestAnimationFrame()限制 LLM 聊天完成渲染而变得流畅且高性能,展示 LLM 的增量响应可解决其速度慢的问题,但存在增量进度指标与吞吐量的权衡,Web 浏览器引擎的性能架构会放大这种权衡,Groq 曾使 chatcraft.org 变慢,经分析发现是解析 markdown 并重新渲染为 HTML 开销大,通过将 LLM 提供的响应缓冲到 requestAnimationFrame()指示布局引擎准备好渲染时来修复,在 M3 Max 笔记本和低性能 Android 平板电脑上测试了不同模型的渲染效果。
关键信息:

  • [chatcraft.org]通过 requestAnimationFrame()优化性能。
  • 解析 markdown 及重新渲染开销大导致卡顿。
  • 修复方案是缓冲响应至布局引擎准备好渲染。
  • 在不同设备上测试不同模型的渲染情况。
    重要细节:
  • 朋友报告 chatcraft 在 LLM 响应时会使 Firefox 挂起,且在 Chrome 中 UI 有时会停止响应长达一分钟。
  • 用 devtools 追踪到问题与更新 DOM 导致的 reflows 等有关。
  • 最终解决方案是缓冲响应并在布局引擎准备好时渲染。
  • 在 M3 Max 笔记本上 gpt-4o 约每 3 个令牌可渲染,llama-70b 约每 45 - 60 个令牌可渲染,groq llama-8b 约每 120 个令牌可渲染,在低性能 Android 平板电脑上效果更显著,浏览器引擎在 groq 响应前约进行 2 次更新。
阅读 13
0 条评论