spark总结 - SegmentFault 思否

2017-02-01

阅读 1 分钟

4.3k

1、存储系统因为spark job需要从外部的存储系统（或文件系统）读取数据（例如：hbase、hdfs等），所有让spark任务尽可能的接近数据本地，让spark和hadoop部署到相同的节点上；数据本地性：将计算任务推送到数据所在地，如果不能保证，也要尽可能的让计算任务接近数据所在地；