数据库为hive,执行一句group by 语句,测试不同方式的效率:
第一种,用impalajdbc方式,返回arraylist,耗时10s
第二种,用spark.format.jdbc方式,返回dataframe,耗时3分钟;
开发语言均为scala,为啥差异那么大?
是不是有更好的方法提升执行效率
如果涉及多表关联,是否第一种方法依旧优于第二种方法?
数据库为hive,执行一句group by 语句,测试不同方式的效率:
第一种,用impalajdbc方式,返回arraylist,耗时10s
第二种,用spark.format.jdbc方式,返回dataframe,耗时3分钟;
开发语言均为scala,为啥差异那么大?
是不是有更好的方法提升执行效率
如果涉及多表关联,是否第一种方法依旧优于第二种方法?