fastapi streamingresponse 不能正常流式返回（qbit）

现象

以 fastapi 为 web 框架，使用 langchain 调用大语言模型流式返回数据给web接口调用时，流式返回不能正常工作，只能整块返回
```
return StreamingResponse(run(), media_type="text/event-stream")
```

技术栈

Python    3.11.8
fastapi   0.111.1
langchain 0.2.14

有个奇怪的点是，这个问题在 Ubuntu（20.04/22.04）上存在，在 Windows 10 上不存在

解决方法

查了很多资料都是说，在 yield 后睡一会儿
```
await asyncio.sleep(0.001)
```
这个方案确实有效，但不是 qbit 想要的
后面反复试验，找到了解决方法

将 langchain 的调用改为异步

# stream 改为 astream
# for 改为 async for
# 由
for data in chain.stream(...):
  yield f"data:{data}\n\n" 
# 改为
async for data in chain.astream(...):
  yield f"data:{data}\n\n"

中途以为是 Linux 的 tcp buffer 太大，修改相关设置对这个问题无效
```
sudo sysctl -w net.ipv4.tcp_wmem="1 1 1"
```

后记

qbit 发现 asyncio.sleep(0) 也是有效果的
虽然官方文档说 GZipMiddleware 同时支持标准 response 和流式 response，但 qbit 使用中发现 GZipMiddleware 和 StreamingResponse 结合使用时有问题

fastapi streamingresponse 不能正常流式返回（qbit）

现象

解决方法

后记

相关文献

qbit

引用和评论

uvicorn 配置日志格式（qbit）

AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025

用PyTorch从零构建 DeepSeek R1：模型架构和分步训练详解

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

当你的思想变成了 RSS 筛选器：用 LLM 让 RSS 为你“工作”

AI 爆火背后，Spring Boot SSE 推送该怎么学？

如何正确看待 AI 的推理能力？走出人类中心主义