scala中的spark sql有多快？

发布于
2021-06-17

新手上路，请多包涵

数据库为hive，执行一句group by 语句，测试不同方式的效率：
第一种，用impalajdbc方式，返回arraylist，耗时10s
第二种，用spark.format.jdbc方式，返回dataframe，耗时3分钟；

开发语言均为scala，为啥差异那么大？

是不是有更好的方法提升执行效率
如果涉及多表关联，是否第一种方法依旧优于第二种方法？

spark dataframe

阅读 1.1k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题