scala中的spark sql有多快?

新手上路,请多包涵

数据库为hive,执行一句group by 语句,测试不同方式的效率:
第一种,用impalajdbc方式,返回arraylist,耗时10s
第二种,用spark.format.jdbc方式,返回dataframe,耗时3分钟;

开发语言均为scala,为啥差异那么大?

是不是有更好的方法提升执行效率
如果涉及多表关联,是否第一种方法依旧优于第二种方法?

阅读 1.1k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进