极光笔记丨Spark SQL 在极光的建设实践

2021-11-09
阅读 5 分钟
2.5k
Spark在2018开始在极光大数据平台部署使用,历经多个版本的迭代,逐步成为离线计算的核心引擎。当前在极光大数据平台每天运行的Spark任务有20000+,执行的Spark SQL平均每天42000条,本文主要介绍极光数据平台在使用Spark SQL的过程中总结的部分实践经验,包括以下方面内容:
封面图

极光笔记丨数据质量建设实践

2021-11-02
阅读 4 分钟
1.8k
本文提出了一种大数据质量体系建设的方法,能对数据处理过程中的ETL任务进行数据质量监控,并根据监控结果进行必要的告警或任务中止。监控任务的开启可以增量进行,对存在的ETL任务不需要做任何修改,监控任务的开启或关闭也不影响原有的ETL任务的依赖关系。
封面图

数字游戏:艺术家如何用大数据展现艺术

2019-05-06
阅读 3 分钟
1.4k
简评: 现在,从社交媒体上分享的照片到运输网络的运行系统,人们每天产生的数据字节数多达 2.5*100万的三次方(25 后面加 17 个 0)。掌握最新科技的艺术家正在利用这些「大数据」创造一种新的信息视觉语言。