vivo 在离线混部探索与实践

2 月 29 日
阅读 8 分钟
300
伴随 vivo 互联网业务的高速发展,数据中心的规模不断扩大,成本问题日益突出。在离线混部技术可以在保证服务质量的同时,极大的提升数据中心资源利用率,降低成本。混部技术涉及任务调度、资源隔离、运维观测等一系列技术难题,本文将介绍 vivo 在混部技术方面的实践和探索,为读者提供借鉴和参考

vivo 海量基础数据计算架构应用实践

1 月 25 日
阅读 7 分钟
245
本文介绍了vivo在万亿级数据增长驱动下,基础数据架构建设的演进过程,在实时和离线计算过程中,如何基于业务发展,数据质量,计算成本等方面的挑战,构建稳定,可靠,低成本、高性能的双活计算架构。

Hudi 在 vivo 湖仓一体的落地实践

2023-12-14
阅读 6 分钟
279
在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。

MySQL到TiDB:Hive Metastore横向扩展之路

2023-09-28
阅读 10 分钟
465
本文介绍了vivo在大数据元数据服务横向扩展道路上的探索历程,由实际面临的问题出发,对当前主流的横向扩展方案进行了调研及对比测试,通过多方面对比数据择优选择TiDB方案。其次分享了整个扩展方案流程、实施遇到的问题及解决方案,对于在大数据元数据性能上面临同样困境的开发者本篇文章具有非常高的参考借鉴价值。

用户行为分析模型实践(三)——H5通用分析模型

2023-02-07
阅读 11 分钟
676
本文从提升用户行为分析效率角度出发,详细介绍了H5埋点方案规划,埋点数据采集流程,提供可借鉴的用户行为数据采集方案;且完整呈现了针对页面分析,留存分析的数仓模型规划方案,在数仓模型设计过程中遇见的痛点难点问题也相应的给出了解决思路及案例代码;在数据展示模块,提供了分析指标数据展示的逻辑流程及UI案例...

vivo 超大规模消息中间件实践之路

2023-01-30
阅读 9 分钟
1.2k
作者:vivo 互联网存储技术团队-Luo Mingbo、中间件团队- Liu Runyun本文根据“2022 vivo开发者大会"现场演讲内容整理而成。

从0到1设计通用数据大屏搭建平台

2022-10-17
阅读 8 分钟
1.4k
一直以来,许多产品平台都在尝试通过可视化搭建的手段来降低 GUI 应用的研发门槛,提高生产效率。随着我们业务的发展,数据建设的完善,用户对于数据可视化的诉求也日益增多,而数据大屏是数据可视化的其中一种展示方式,它作为大数据展示媒介的一种,被广泛运用于各种会展、公司展厅、发布会等。

理“ Druid 元数据”之乱

2022-05-30
阅读 11 分钟
1.5k
vivo 互联网大数据团队-Zheng Xiaofeng一、背景Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。由于Druid 能够同时提供离线和实时数据的查询,因此Druid最常用作为GUI分析、业务监控、实时数仓的数据存储系统。此外Druid拥有一个多进程,分布式架构,每个Druid组件类型都可以独立配置和扩...

Kafka 万亿级消息实践之资源组流量掉零故障排查分析

2022-05-23
阅读 4 分钟
1k
为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。

vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践

2022-05-16
阅读 17 分钟
2.1k
在HDFS方面,支持了Erasure Coding、More than 2 NameNodes、Router-Based Federation、Standby NameNode Read、FairCallQueue、Intra-datanode balancer 等新特性。这些新特性在稳定性、性能、成本等多个方面带来诸多收益,我们打算将HDFS集群升级到HDFS 3.x 版本。

用户行为分析模型实践(二)—— 漏斗分析模型

2022-05-06
阅读 12 分钟
2.6k
在《用户行为分析模型实践(一)—— 路径分析模型》中,讲述了基于平台化查询中查询时间短、需要可视化的要求,并结合现有的存储计算资源以及具体需求,我们在实现中将路径数据进行枚举后分为两次进行合并。

高效压缩位图在推荐系统中的应用

2022-04-19
阅读 4 分钟
1.5k
用户在浏览游戏中心/应用商店的某些模块内容时,会进行一系列滑屏操作并多次请求游戏推荐业务来进行游戏推荐展示,这段时间我们称之为一个用户session。

用户行为分析模型实践(一)—— 路径分析模型

2021-03-15
阅读 13 分钟
6.2k
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的——路径分析。路径分析应用是对特定页面的上下游进行可视化展示并分析用户在使用产品时的路径分布情况。比如:当用户使用某APP时,是怎样从【首页】进入【详情页】的,用户从【首页】分别进入【详情页】、【播放页】、【下载页】的比例是怎样的,以及可...

谈谈统计学正态分布阈值原理在数据分析工作中的运用

2021-01-20
阅读 6 分钟
2.2k
神觉得抛硬币是好的,于是定义每个抛出硬币正面记+1分,反面记-1分。创世纪从0分开始,神只抛1次硬币,有2种可能:一半的概率+1分,一半的概率-1分。此时概率分布大概是这样的:

Kafka 原理以及分区分配策略剖析

2021-01-18
阅读 13 分钟
12.6k
可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。可以储存流式的记录,并且有较好的容错性。可以在流式记录产生时就进行处理。

Linux Page Cache调优在Kafka中的应用

2020-08-24
阅读 6 分钟
2.2k
本文主要描述Linux Page Cache优化的背景、Page Cache的基本概念、列举之前针对Kafka的 IO 性能瓶颈采取的一些解决方案、如何进行Page Cache相关参数调整以及性能优化前后效果对比。

如何做一次完美的 ABTest?

2020-06-11
阅读 6 分钟
9.1k
越来越多的公司都在尝试 ABTest,要么是自己搭建系统,要么依赖于第三方的系统。那么在我们进行ABTest的时候,必备的基础知识有哪些?该如何一步一步的进行AB实验呢?本文将根据 AB 实验的流程带领大家一窥究竟。

Spark 数据倾斜及其解决方案

2019-12-30
阅读 8 分钟
2.3k
本文首发于 vivo互联网技术 微信公众号 [链接] 作者简介:郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平台、移动浏览器、推荐广告和大数据、人工智能等相关开发和架构。目前在vivo智能平台中心从事 AI中台建设以及广告推荐业务。擅长各种业务形态的业务架构、平台化以及各种业务解...

大数据平台架构设计探究

2019-12-23
阅读 5 分钟
5k
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿...

【大数据 】SparkSQL连接查询中的谓词下推处理(二)

2019-06-04
阅读 4 分钟
1.6k
本文首发于 vivo互联网技术 微信公众号 [链接] 作者:李勇 目录: 1.左表 join 后条件下推 2.左表join中条件不下推 3.右表join中条件下推 4.右表join中条件不下推 5.总结 在《SparkSql连接查询中的谓词下推处理(一)》中,我们介绍了一些基本的概念,并对内连接查询时的一些基本下推规则进行了分析。 本篇文章要介绍的...

【大数据】SparkSql连接查询中的谓词下推处理(一)

2019-05-16
阅读 5 分钟
1.8k
本文首发于 vivo互联网技术 微信公众号 [链接]作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4.1.Join后条件通过AND连接 4.2.Join后条件通过OR连接 4.3.分区表使用OR连接过滤条件 1.SparkSql SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 ...