极光推送 - SegmentFault 思否

2021-11-09

阅读 5 分钟

2.5k

Spark在2018开始在极光大数据平台部署使用,历经多个版本的迭代,逐步成为离线计算的核心引擎。当前在极光大数据平台每天运行的Spark任务有20000+,执行的Spark SQL平均每天42000条,本文主要介绍极光数据平台在使用Spark SQL的过程中总结的部分实践经验,包括以下方面内容:

2021-11-02

阅读 4 分钟

1.8k

本文提出了一种大数据质量体系建设的方法，能对数据处理过程中的ETL任务进行数据质量监控，并根据监控结果进行必要的告警或任务中止。监控任务的开启可以增量进行，对存在的ETL任务不需要做任何修改，监控任务的开启或关闭也不影响原有的ETL任务的依赖关系。

2019-05-06

阅读 3 分钟

1.4k

简评：现在，从社交媒体上分享的照片到运输网络的运行系统，人们每天产生的数据字节数多达 2.5*100万的三次方（25 后面加 17 个 0）。掌握最新科技的艺术家正在利用这些「大数据」创造一种新的信息视觉语言。