Cloudflare在11月遭遇重大事故，导致日志丢失

Cloudflare日志丢失事件总结

事件概述

2024年11月14日，Cloudflare发生了一起影响其日志服务的事件，导致在3.5小时内约55%的日志丢失。该事件影响了大多数使用该服务的客户，起因是一个配置错误引发了系统级联故障，并暴露了系统在处理需求激增时的弱点。

背景与系统架构

Cloudflare每天处理超过50万亿条客户事件日志，其中约4.5万亿条会被发送给客户。为了从全球330多个城市的数万台服务器中收集并推送日志，Cloudflare开发了名为Logpush的Golang服务。Logpush通过内部Buftee服务为每个任务提供缓冲区，读取日志并批量推送到客户配置的目标地址，每天处理超过6亿批次的日志。

事件原因

事件起因是Cloudflare团队为了支持Logpush的新数据集，添加了一个新的配置项。然而，系统中的一个错误导致向Logfwdr提供了一个空白配置。尽管团队在5分钟内发现并回滚了更改，但这个错误触发了Logfwdr中一个潜在的漏洞，导致Buftee服务过载并失去响应。

影响与恢复

由于Logfwdr开始为所有客户发送事件日志，Buftee为每个客户创建了缓冲区，导致缓冲区数量激增约40倍，超出了Buftee集群的处理能力。恢复错误的Buftee配置花费了Cloudflare数小时的时间。

专家评论

ESET高级网络安全顾问Nermin Smajic指出，该事件表明网络安全不仅关乎防范外部威胁，还需确保内部系统的健壮性和弹性，以应对复杂的技术挑战。Airbnb的软件工程师Lorin Hochstein称赞Cloudflare的公开事件报告质量高，但也指出自动化安全机制本身增加了复杂性，实现无漏洞的安全代码与实现无漏洞的功能代码同样困难。

未来改进

Cloudflare团队承诺将实施更多警报机制，以确保此类配置错误无法被忽视。同时，他们承认错误和配置失误是不可避免的，强调所有Cloudflare系统的目标应该是能够以可预测和优雅的方式应对这些问题。

总结

Cloudflare的这次事件展示了在构建大规模、高可靠性系统时面临的挑战，特别是在处理配置变更和系统过载时的复杂性。未来，Cloudflare将继续改进其系统，以提高其应对意外问题的能力。