2

Netflix近日开源了一个叫做Suro的工具。Suro从多个应用服务器收集事件数据,以便发送其他数据平台(例如Hadoop和Elasticsearch)。随着Suro的开源,Netfix的这项大数据上的创新有望成为主流技术。

Suro不但在Netflix的数据管道中扮演关键角色,而且也是大公司贡献开源数据分析工具的生态环境的一个好例子。

Netflix的诸多应用每天生成数十亿的事件,Suro将它们收集起来。这些数据大部分通过Amazon S3交给Hadoop进行批处理,另一部分通过Apache Kafka传给Druid和ElasticSearch进行实时分析。Netflix的博客还提到,Netflix也在考虑使用Storm或Samza这样的实时处理引擎对事件数据进行机器学习。

suro realtime -flow

熟悉大数据领域的人都知道,很多知名的技术都来源于大公司。例如Netflix 创建了Suro, LinkedIn 创建了KafkaSamza, Twitter创建了Storm,Metamarkets 创建了Druid。Suro博客也承认它是基于Apache Chukwa项目,类似 Apache的FlumeFacebook的Scribe。毫无疑问,这些项目中最出名的是源自Yahoo的的Hadoop。

我有时候会寻思为什么这些公司需要自己创造技术,而不是使用现有的技术。当然,和生活中的很多事情一样,这个问题的答案还得具体问题具体分析。例如,Storm正成为一个非常受欢迎的流处理工具,但LinkedIn觉得它们需要不同的东西,于是创造了Samza。Netflix创建了Suro,而没有使用现有技术,主要是因为该公司虽然是一个重度的云服务用户(大量使用AWS),但也使用其他工具,包括Apache Cassandra数据库。

这场技术创新的最终赢家应该会是那些采用这些主流技术的用户,那些用户不能也不必自己发明这样的技术。我们已经看到 Hadoop供应商尝试为企业用户提供StormSpark处理框架服务。还会有更多这样的例子出现。毕竟,AWS的用户太多了,他们很希望能使用类似Suro这样的技术,而不是依靠Amazon来提供

Suro项目主页


原文 Netflix open sources its data traffic cop, Suro
翻译 SegmentFault


weakish
24.6k 声望844 粉丝

a vigorously lazy deadbeat with matured immaturity