“流处理与批处理”是一个错误的二分法，并且我认为这很令人困惑。

发布于 2025-08-03

主要观点：“Stream vs. Batch”常被视为非此即彼，实则不然。许多流式系统也会应用批处理，存储/计算分离趋势加速了这一发展，这种批处理对用户透明且能自我调节。“Stream vs. Batch”讨论应聚焦于“Pull vs. Push”语义，拉取系统可能错过更新，而流式系统能实时提供完整数据视图，但有复杂度问题，社区在不断改进。

关键信息：

流式系统会批量处理记录以提高性能，如处理缓冲区中到达的记录，高到达率则批处理大，低到达率则批处理小。
“Stream vs. Batch”讨论应是“Pull vs. Push”语义，拉取系统可能错过更新，流式系统能实时提供数据。
批处理常用于回补等操作，拉取和推送方式可互补，如低数据量时暂停流式管道节省成本。

重要细节：

以 WarpStream 和 [Diskless Kafka]为例说明存储/计算分离加速发展。
提到 Apache Arrow 对实现相关设计有帮助。
举例说明人们起初怀疑但体验后很快想要实时流式处理。

阅读 92