OPPO大数据离线计算平台架构演进

2021-12-17
阅读 8 分钟
2.3k
OPPO的大数据离线计算发展,经历了哪些阶段?在生产中遇到哪些经典的大数据问题?我们是怎么解决的,从中有哪些架构上的升级演进?未来的OPPO离线平台有哪些方向规划?今天会给大家一一揭秘。

剖析Spark数据分区之Spark streaming & TiSpark

2020-03-02
阅读 4 分钟
2.6k
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第三篇,本篇我们将分析Spark streaming,TiSpark中的数据分区。

Spark ML的特征处理实战

2019-12-18
阅读 9 分钟
3.3k
通常情况下,我们得到的数据中包含脏数据或者噪声。在模型训练前,需要对这些数据进行预处理,否则再好的模型也只能“garbage in,garbage out”。

剖析Spark数据分区之Spark RDD分区

2019-12-16
阅读 7 分钟
5k
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析Spark RDD的数据分区。该系列共分3篇文章,欢迎持续关注。

剖析Spark数据分区之Hadoop分片

2019-12-13
阅读 4 分钟
2.9k
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第一篇,将重点分析Hadoop分片。该系列共三篇文章,敬请关注。 第一篇:主要分析Hadoop中的分片; 第二篇:主要分析Spark RDD的分区; 第三篇:主要分析Spark Streaming,TiSpark中的数据分区; 转载请注名作者,同时欢迎关注OPPO互联网技术团队的公众号...