Suro —— Netflix开源的分布式数据管道系统

Netflix近日开源了一个叫做Suro的工具。Suro从多个应用服务器收集事件数据，以便发送其他数据平台（例如Hadoop和Elasticsearch）。随着Suro的开源，Netfix的这项大数据上的创新有望成为主流技术。

Suro不但在Netflix的数据管道中扮演关键角色，而且也是大公司贡献开源数据分析工具的生态环境的一个好例子。

Netflix的诸多应用每天生成数十亿的事件，Suro将它们收集起来。这些数据大部分通过Amazon S3交给Hadoop进行批处理，另一部分通过Apache Kafka传给Druid和ElasticSearch进行实时分析。Netflix的博客还提到，Netflix也在考虑使用Storm或Samza这样的实时处理引擎对事件数据进行机器学习。

suro realtime -flow

熟悉大数据领域的人都知道，很多知名的技术都来源于大公司。例如Netflix 创建了Suro， LinkedIn 创建了Kafka和 Samza， Twitter创建了Storm，Metamarkets 创建了Druid。Suro博客也承认它是基于Apache Chukwa项目，类似 Apache的Flume， Facebook的Scribe。毫无疑问，这些项目中最出名的是源自Yahoo的的Hadoop。

我有时候会寻思为什么这些公司需要自己创造技术，而不是使用现有的技术。当然，和生活中的很多事情一样，这个问题的答案还得具体问题具体分析。例如，Storm正成为一个非常受欢迎的流处理工具，但LinkedIn觉得它们需要不同的东西，于是创造了Samza。Netflix创建了Suro，而没有使用现有技术，主要是因为该公司虽然是一个重度的云服务用户（大量使用AWS），但也使用其他工具，包括Apache Cassandra数据库。

这场技术创新的最终赢家应该会是那些采用这些主流技术的用户，那些用户不能也不必自己发明这样的技术。我们已经看到 Hadoop供应商尝试为企业用户提供Storm和Spark处理框架服务。还会有更多这样的例子出现。毕竟，AWS的用户太多了，他们很希望能使用类似Suro这样的技术，而不是依靠Amazon来提供。

Suro项目主页

原文 Netflix open sources its data traffic cop, Suro
翻译 SegmentFault

Suro —— Netflix开源的分布式数据管道系统

weakish

引用和评论

高效开源的网络扫描框架 —— NINJA-PingU

【万字长文】大模型开源开发全景与趋势解读

Dolphinscheduler IDEA本地调试

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

2025年GitHub Star增长最快的15个开源低代码项目