SparkSql调用hive Insert语句执行超级慢

在使用Spark SQL 执行

    sparkseccion.sql("insert overwrite table xxxx partition(date_time) select * from zzzz")

的时候，非常慢，大约需要3个小时跑完1.4m的数据。而如果将其保存在本地大约2分钟跑完。查询Hive的数据基本上是秒查。

版本信息：

5分钟内将其执行完毕，并且xxxx的数据写入成功。
目前可以写入成功，但是却需要3个小时的时间。

阅读 10.9k

2 个回答

得票最新

你可以把数据保存成 parquet 或者 orc 格式，作为 hive 的外部表加载，这样很快。

新手上路，请多包涵

看你的hive有个date_time 的动态分区，你想看看你的动态分区，是不是非常多
这个玩意很大的话，非常影响性能的
还有就是，要学会看日志，明白自己的程序到底在做什么，在那个步骤运行时间长，就会比较好的解决问题了

撰写回答

推荐问题