树犹如此 - SegmentFault 思否

Apache Beam访问HDFS

2017-10-08

阅读 4 分钟

2.7k

一、直接访问 1.引入HDFS的相关jar包： {代码...} 2.使用HadoopFileSystemOptions代替PipelineOptions {代码...} 3.给Options指定HDFS配置 {代码...} 4.与访问本地文件一样访问HDFS文件 {代码...} 实际测试中发现本地runner（如Direct, Flink Local, Spark Local...）能够成功读写HDFS，但是集群模式下（如Flink Cluster...

Apache beam其他学习记录

树犹如此

2017-10-06

阅读 2 分钟

Combine是对聚合后的Iterable进行处理（如求和，求均值），返回一个结果。内置的Combine.perKey（）方法其实是GroupByKey和Combine的结合，先聚合和处理。Beam中还有许多内置的处理类，比如Sum.integersPerKey（），Count.perElement()等在全局窗口下，对于空输入，Combine操作后一般会返回默认值（比如Sum的默认返回值...

Apache Beam的分窗与触发器

树犹如此

2017-10-06

阅读 3 分钟

3.5k

在默认情况下，Apache Beam是不分窗的，也就是采用GlobalWindow，而如果同时也不设置自定义的触发器，那么Beam会在所有数据都收集到之后才开始对数据进行处理。这通常只能适用于有限数据且对实时性要求不高的情况。当输入为无限流数据，我们可以1）设置合适的窗口大小（根据时间戳），在窗口末端进行数据处理；2）设置触...

Apache Beam学习笔记——几种常见的处理类Transform

树犹如此

2017-09-18

阅读 4 分钟

3.8k

在阅读本文前，可先看一下官方的WordCount代码，对Apache Beam有大概的了解。要说在Apache Beam中常见的函数是哪一个，当然是apply()。常见的写法如下： {代码...} 而在最简单的wordcount代码中，就出现了许多种不同的传入参数类型，除了输入输出的部分，还包括1）使用ParDo.of(): {代码...} 2）使用MapElements.via()...