由Word Count入门Apache Storm

阅读 2 分钟

0

Storm是一个分布式流处理框架。

入门

Word count作为分布式的"hello world"，这里由word count引出Storm的topology概念。

问题

有一系列DNS查询，需要统计被查询最多次的域名

从函数式编程的角度来讲，可以把算法归纳为下图

即为
h ( g ( f (data) ) )

转换为Storm topology

概念

Topology：拓扑结构
Spout：spout作为整个拓扑的数据源，一个topology中可能存在多个数据源。上图中即为提供DNS查询的数据源
Bolt： bolt是topology中的基本数据处理单元。上图中，即为f,g,h三个函数。
Tuple: 基本数据单元。例（1.1.1.1， "foo.com"）
Stream: 无止境一串的tuple流 ... (2.2.2.2, “bar.net”)， (3.3.3.3, “foo.com”)， (4.4.4.4, “foo.com”) ...

Stream Grouping 常用分组方式

Shuffle grouping
随机分配tuple给后续节点

Fields grouping
根据定义的fields字段，将相同key值的字段分配给同一后续节点。常用于统计同一key值的数量

All grouping

Storm和Hadoop的区别

Hadoop主要用来处理batch（批处理）数据， Storm主要用来处理Stream（流式）数据。主要区别如下图所示：
图片描述

阅读 2.8k更新于 2016-06-22

Yu_Huang

12 声望2 粉丝

« 上一篇

Design Pattern的万剑归宗 => Mediator

下一篇 »

引用和评论

推荐阅读

Dolphinscheduler IDEA本地调试

journey赞 1阅读 10.2k

【Hadoop】HDFS架构解析

kamier赞 1阅读 820

【Hadoop】HBase系统解析及适用场景

kamier赞 1阅读 633

基于 pyflink 的算法工作流设计和改造

ApacheFlink赞 1阅读 593

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

ApacheFlink阅读 1.1k

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）

SelectDB技术团队阅读 859

Elasticsearch AI Assistant 集成 DeepSeek，1分钟搭建智能运维助手

阿里云大数据AI阅读 807

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。