萌新大数据 - SegmentFault 思否

Spark通过bulkLoad对HBase快速导入

linkse7en

2017-06-13

阅读 20 分钟

13.1k

项目中有需求将Hive的表存储在HBase中。通过Spark访问Hive表，通过一定ETL过程生成HFile，并通知HBase进行bulk load。实测这是导数最快的手段。

Java抓取淘宝/天猫商品详情

linkse7en

2017-02-10

阅读 5 分钟

15.6k

有项目需求抓取淘宝天猫的商品详情。琢磨一段时间搞出来了。放出来让大家参考下。 Maven依赖：HtmlUnit {代码...} 准备工作： {代码...} 淘宝详情抓取：分析淘宝的页面，商品详情是异步从cdn加载的，我们只要找到这个cdn的url，直接请求获取response即可。 {代码...} 天猫详情抓取：淘宝天猫是截然两种风格，没找到像淘...

使用Zeppelin来实现大数据分析的可视化

linkse7en

2016-06-08

阅读 2 分钟

11.1k

Apache Zeppelin是ASF的一个孵化项目，实现了基于web的在线代码编辑与数据可视化。有点类似Spark-Shell的REPL。其结果可以直接用图表来展示，解决了前端白痴的苦逼。Zeppelin官网我们可以直接下载 zeppelin-0.5.6-incubating-bin-all.tgz ，然后部署到服务器上，个人感觉部署到Spark Master节点上会更好。修改好配置文件...

Spark Java使用DataFrame的foreach/foreachPartition

linkse7en

2016-05-28

阅读 4 分钟

24.9k

DataFrame原生支持直接输出到JDBC，但如果目标表有自增字段（比如id），那么DataFrame就不能直接进行写入了。因为DataFrame.write().jdbc()要求DataFrame的schema与目标表的表结构必须完全一致（甚至字段顺序都要一致），否则会抛异常，当然，如果你SaveMode选择了Overwrite，那么Spark删除你原有的表，然后根据DataFram...