Spark通过bulkLoad对HBase快速导入

2017-06-13
阅读 20 分钟
12.9k
项目中有需求将Hive的表存储在HBase中。通过Spark访问Hive表,通过一定ETL过程生成HFile,并通知HBase进行bulk load。实测这是导数最快的手段。

Java抓取淘宝/天猫商品详情

2017-02-10
阅读 5 分钟
15.4k
有项目需求抓取淘宝天猫的商品详情。琢磨一段时间搞出来了。放出来让大家参考下。 Maven依赖:HtmlUnit {代码...} 准备工作: {代码...} 淘宝详情抓取:分析淘宝的页面,商品详情是异步从cdn加载的,我们只要找到这个cdn的url,直接请求获取response即可。 {代码...} 天猫详情抓取:淘宝天猫是截然两种风格,没找到像淘...

使用Zeppelin来实现大数据分析的可视化

2016-06-08
阅读 2 分钟
11k
Apache Zeppelin是ASF的一个孵化项目,实现了基于web的在线代码编辑与数据可视化。有点类似Spark-Shell的REPL。其结果可以直接用图表来展示,解决了前端白痴的苦逼。Zeppelin官网我们可以直接下载 zeppelin-0.5.6-incubating-bin-all.tgz ,然后部署到服务器上,个人感觉部署到Spark Master节点上会更好。修改好配置文件...

Spark Java使用DataFrame的foreach/foreachPartition

2016-05-28
阅读 4 分钟
24.7k
DataFrame原生支持直接输出到JDBC,但如果目标表有自增字段(比如id),那么DataFrame就不能直接进行写入了。因为DataFrame.write().jdbc()要求DataFrame的schema与目标表的表结构必须完全一致(甚至字段顺序都要一致),否则会抛异常,当然,如果你SaveMode选择了Overwrite,那么Spark删除你原有的表,然后根据DataFram...