用Spark实现日志解析

2shou

当下数据矿工们谈论最多的,莫过于这「星火」了。Spark这名字,总让我联想起高中背过的单词书,从而印象不佳,哈哈。
今天也凑了把热闹,把一个日志解析的模块改成Spark实现,算是体验之旅吧。
刚开始我是用看起来很像Swift的Scala写的:SparkLogExtract.scala
然后我希望为这个程序增加参数传入的功能,然后我谷歌大法了,然后就没有然后了。
总体感觉Scala是一个不够可爱的姑娘,表现在:

  1. 语法似乎还没进入稳定状态,像列表扩展、正则匹配这样基础的API都能搜出一大堆眼花缭乱的做法。
  2. 没有break和continue的日子里我真的很想他们……
  3. SBT对天朝子民真的很慢!
  4. 虽然提供了Shell,可提交还是要编译的好不。
  5. 长得不好看,函数没有「return」真的充满了违和感(咦,我怎么会用违和感这种高级词汇?)

当然要换回熟悉的Python!
接下来就爽快多了,除了map的函数传参遇到了困难(最后我恶心地用一个lambda调用普通函数搞定了),其他一帆风顺,运行速度和Scala一样快的(嘿嘿)。
代码请见:spark_log_extract.py
求赐星星!

来自:建造者说

阅读 10k

码农咖啡馆
在这里交流大数据、后台技术、程序员职业与创业的那些事

希望做一个建造者

1.2k 声望
644 粉丝
0 条评论

希望做一个建造者

1.2k 声望
644 粉丝
文章目录
宣传栏