Spark DataFrame小试牛刀

2015-03-23
阅读 2 分钟
31.8k
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自...

用Spark实现日志解析

2015-01-07
阅读 1 分钟
10.9k
当下数据矿工们谈论最多的,莫过于这「星火」了。Spark这名字,总让我联想起高中背过的单词书,从而印象不佳,哈哈。 今天也凑了把热闹,把一个日志解析的模块改成Spark实现,算是体验之旅吧。 刚开始我是用看起来很像Swift的Scala写的:SparkLogExtract.scala 然后我希望为这个程序增加参数传入的功能,然后我谷歌大法...