SF
OPPO数智技术
OPPO数智技术
注册登录
关注博客
注册登录
主页
关于
RSS
OPPO大数据计算集群资源调度架构演进
OPPO数智技术
2021-12-24
阅读 5 分钟
1.7k
随着公司这两年业务的迅速扩增,业务数据量和数据处理需求也是呈几何式增长,这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开,将带大家了解集群资源调度的整体过程、面临的问题,以及我们在底层所做的一系列开发优化工作。
OPPO大数据离线计算平台架构演进
OPPO数智技术
2021-12-17
阅读 8 分钟
2.3k
OPPO的大数据离线计算发展,经历了哪些阶段?在生产中遇到哪些经典的大数据问题?我们是怎么解决的,从中有哪些架构上的升级演进?未来的OPPO离线平台有哪些方向规划?今天会给大家一一揭秘。
Elastic-Job的执行原理及优化实践
OPPO数智技术
2021-11-03
阅读 11 分钟
4.1k
Quartz是由OpenSymphony提供的强大的开源任务调度框架,用来执行定时任务。比如每天凌晨三点钟需要从数据库导出数据,这时候就需要一个任务调度框架,帮我们自动去执行这些程序。那Quartz是怎样实现的呢?
OPPO数据湖统一存储技术实践
OPPO数智技术
2021-08-17
阅读 5 分钟
4.2k
OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地充分挖掘数据价值,成为了拥有海量数据的公司的一大难题。目前业界的流行解决方案是数据湖,本文介绍的OPPO自研的数据湖存储CBFS在很大...
Realtime DB技术详解
OPPO数智技术
2021-07-20
阅读 3 分钟
3.6k
基于 MongoDB 的 NoSQL 数据 库,因此具有不同于关系型数据库的优化方向和 功能特点。服务端 API 的设计只支持可以快速执行 的操作,因此需要用户认真考虑存储的数据结构。
大数据存储格式的进化之旅
OPPO数智技术
2020-01-09
阅读 3 分钟
1.5k
“数据量大什么的怕你呀,数据格式什么的, 赶紧放进来就是了;别管了,就就就那个csv吧,快糙猛搞起来呀,大不了读的时候再解析校验啥的,读时校验(schema on read)有木有”
Presto资源组快速指南
OPPO数智技术
2019-12-24
阅读 4 分钟
2.8k
本文来自OPPO互联网技术团队,转载请注名作者。同时欢迎关注我们的公众号:OPPO_tech,与你分享OPPO前沿互联网技术及活动。 Presto作为一个大数据场景下的交互式查询引擎,在OPPO线上已经正常提供一年的查询服务了。 从刚开始,仅有国内几台服务器,到现在服务已经覆盖了国内外多个地区的大部分交互式查询,其中仅国内服...
剖析Spark数据分区之Spark RDD分区
OPPO数智技术
2019-12-16
阅读 7 分钟
5k
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析Spark RDD的数据分区。该系列共分3篇文章,欢迎持续关注。
剖析Spark数据分区之Hadoop分片
OPPO数智技术
2019-12-13
阅读 4 分钟
2.9k
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第一篇,将重点分析Hadoop分片。该系列共三篇文章,敬请关注。 第一篇:主要分析Hadoop中的分片; 第二篇:主要分析Spark RDD的分区; 第三篇:主要分析Spark Streaming,TiSpark中的数据分区; 转载请注名作者,同时欢迎关注OPPO互联网技术团队的公众号...
Flink在OPPO实时计算平台的研发与应用实践
OPPO数智技术
2019-12-10
阅读 14 分钟
3k
本文整理自OPPO大数据平台研发负责人张俊的分享。如果读者正在考虑或者正在建设实时计算平台,希望能给大家带来一些参考。同时欢迎关注OPPO互联网技术团队的公众号:OPPO_tech
Hive迁移Presto的技术实践
OPPO数智技术
2019-12-09
阅读 2 分钟
4.1k
hive设计之初,就被定位一款离线数仓产品,虽然Hortonworks喊出了Make Apache Hive 100x Faster的牛逼口号,也在上面做了大量的优化,然而性能提升依旧不大。
图平台技术及应用实践
OPPO数智技术
2019-12-03
阅读 9 分钟
9k
图论是计算机科学中最重要、最有趣的分支之一,对于存在拓扑关系的业务场景,理解和使用图可以对业务有很多帮助。本文主要针对图理论在大数据量下的技术和应用场景做全貌性的介绍。