如何把Spark的数据导出到Greenplum?

数据放在Spark集群的HDFS上,如何把Spark计算的结果导入到GP里面?计算后的结果存放到GP上,业务用户白天就查询GP,这样是不是速度可以更快一点。

阅读 6.4k
1 个回答

如果Spark写出的文件类型为Parquet、Avro或者CSV文件,可以使用gphdfs外部表读入GPDB中。如果是其它文件类型,要麻烦一些,需要定制gphdfs的序列化插件。

http://gpdb.docs.pivotal.io/4...

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进