任务全链路诊断,助力云音乐大规模计算资源优化

2023-06-06
阅读 5 分钟
502
计算资源vcore的优化不同于内存优化,vcore严重影响着任务的运行效率。如何在保证任务运行效率不变甚至提高的情况下,能进一步优化vcore的利用率?我们需要对任务做出全面的分析,给出不同的优化策略。这篇文章主要围绕任务运行阶段,介绍任务全链路诊断针对任务不同检查项异常给予的优化策略,以及带来的收益。

大数据技术沙龙来袭!2023走进网易:创新重塑数据生产力

2023-05-16
阅读 1 分钟
592
随着大数据平台和技术在企业内部的推进与落地,长效价值逐渐成为关注点。❓如何更好地管理数据资产?❓是否有可参考的建设方法❓AIGC和ChatGPT热点是否能高效结合企业数据需求?❓企业IT部门又该如何更好地发挥其能力?网易将为您解答!!网易数帆联合信通院云大所、CSDN共同发起大数据技术沙龙,邀请一线专家分享前沿方法论...
封面图

云音乐数据资产化建设的思考与实践

2023-02-24
阅读 4 分钟
710
本文介绍是云音乐数据资产化建设相关的内容,介绍了近一年在具体实践过程中的一些阶段性的成果和思考;详细内容将从资产化建设的背景、近期的实践成果以及下一阶段的思考与规划共三个方面来展开。

网易云音乐用户画像资产治理及业务赋能

2023-01-17
阅读 3 分钟
555
针对业务场景中数据应用价值的落地,网易数帆形成了以 DataOps、DataFusion、DataProduct 为内核,数据技术、数据资产、数据应用和数据运营为四要素的数据生产力模型,其中网易公司数据运营的一个重要手段是网易数据治理大赛。本文是第二届网易数据治理大赛获奖作品分享,来自于网易互娱用户体验中心数据团队。云音乐用...

正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!

2022-12-29
阅读 4 分钟
1.4k
项目最初由网易数帆开发并于2018年开源,2021年6月捐赠 Apache基金会,经过1年多的孵化于2022年11月通过投票,在12月顺利毕业,成为 Apache 基金会顶级开源项目!
封面图

让金融机构轻松应对监管报送,网易数帆发布最新解决方案

2022-12-23
阅读 2 分钟
988
近年来,随着人民银行、银保监会等监管机构对金融机构数据报送的制度与规则日益完善,需要提交报送的数据量越来越大,对数据质量及业务合规性的要求也越来越高。
封面图

多点DMALL × Apache Kyuubi:构建统一SQL Proxy探索实践

2022-11-25
阅读 8 分钟
1.7k
伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。
封面图

网易传媒基于 Arctic 的低成本准实时计算实践

2022-11-09
阅读 7 分钟
857
网易传媒大数据实际业务中,存在着大量的准实时计算需求场景,业务方对于数据的实效性要求一般是分钟级;这种场景下,用传统的离线数仓方案不能满足用户在实效性方面的要求,而使用全链路的实时计算方案又会带来较高的资源占用。
封面图

Arctic 基于 Hive 的流批一体实践

2022-10-27
阅读 7 分钟
1k
随着大数据业务的发展,基于 Hive 的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面 Hudi,Iceberg 这类系统在事务性,快照管理上带来巨大提升,但是对已经存在的 Hive 用户有较大的迁移成本,并且难以满足流式计算毫秒级延迟的需求。为了满足网易内外部...
封面图

Apache Kyuubi 在B站大数据场景下的应用实践

2022-10-27
阅读 10 分钟
1.9k
近几年随着B站业务高速发展,数据量不断增加,离线计算集群规模从最初的两百台发展到目前近万台,从单机房发展到多机房架构。在离线计算引擎上目前我们主要使用Spark、Presto、Hive。架构图如下所示,我们的BI、ADHOC以及DQC服务都是通过自研的Dispatcher路由服务来实现统一SQL调度,Dispatcher会结合查询SQL语法特征、...
封面图

SparkSQL on K8s 在网易传媒的落地实践

2022-10-18
阅读 6 分钟
1.4k
随着云原生技术的发展和成熟,大数据基础设施积极拥抱云原生是业内发展的一大趋势。网易传媒在 2021 年成功将 SparkSQL 部署到了 K8s 集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了一年多。期间传媒联合杭研 Spark 内核团队和云计算团队对出现的问题进行了持续的改进,本文将对这些落地优化实践进行初步...

基于 Impala 的高性能数仓实践之物化视图服务

2022-10-13
阅读 12 分钟
1.2k
接上篇,前两篇分别讲了执行引擎和虚拟数仓,它们是让一个 SQL 又快又好地执行的关键。但如果某些 SQL 过于复杂,比如多张大表进行 Join 并有大量的聚合类操作,那么再优秀的执行引擎也无法保证能够秒级执行完成,虚拟数仓的弹性扩展能力也很难及时跟上,这正是物化视图能够发挥作用的场景。

汪源:数据分析热词迭出,“三个统一”值得关注

2022-09-30
阅读 4 分钟
834
从流批一体、湖仓一体、NoETL、数据中台到DataOps,现代数据分析领域热词迭出,企业如何抓住本质,经营数据生产力以提质增效?9月26-27日,ArchSummit全球架构师峰会杭州站举办,网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源受邀在会上发表主题演讲,深入浅出地剖析了现代化数据分析架构中最值得关注的三条...

重磅嘉宾、最全议程新鲜出炉,2022网易数字+大会精彩抢先看!

2022-09-16
阅读 1 分钟
1.7k
经济发展、数字化加速的今天企业数字化转型仍旧面临不少困惑:转型目标与可落地的价值之间相距甚远?拥抱云原生,新架构下如何推动业务创新?海量数据如何转化为业务资产?发展岔路之下,怎样找到变革增效最优解?
封面图

Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践

2022-09-06
阅读 8 分钟
1.2k
导读:在云原生 + 大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数据分析技术,经历了从传统数仓到数据湖,再到湖仓一体的演进。本文主要介绍移动云云原生大数据分析 LakeHouse 的整体架构、核心功能、关键技术点,以及在公有云 / 私有云的应用场景。

ArchSummit回顾:从云原生到实时数据湖,架构如何支撑业务发展

2022-08-25
阅读 3 分钟
756
数字化、自动化、智能化的主旋律下,架构的进化也在提速。在近日举办的ArchSummit全球架构师峰会上,网易数帆高级技术专家、资深架构师裴斐和网易数帆高级技术专家周劲松分别分享了云原生业务改造和数据湖实时化的最新架构实践。
封面图

基于 Impala 的高性能数仓建设实践之虚拟数仓

2022-08-19
阅读 5 分钟
981
【点击了解更多大数据干货】导读:本文主要介绍网易数帆 NDH 在 Impala 上实现的虚拟数仓特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充分利用节点资源。

开源流式湖仓服务 Arctic 详解:并非另一套 Table Format

2022-08-18
阅读 12 分钟
1.3k
【点击了解更多大数据】本文根据作者于 Arctic 开源发布会演讲内容整理(略有删减),系统解读 Arctic 项目研发初衷、生态定位、核心特性、性能表现及未来规划。

技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?

2022-08-18
阅读 4 分钟
1.3k
【点击了解更多数仓知识】市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等,聚集数帆及合作伙伴的数字化转型专家天团,聚焦大数据、云原生、人工智能等科创领域,带来深度技术解读及其在各...
封面图

Arctic开源!网易数帆×华泰证券,推动湖仓一体落地

2022-08-11
阅读 3 分钟
1.2k
数字化转型趋势下,各行业对数据生产力的探索与追求逐步进入深水区。现实的问题是,企业数据仓库存储、数据湖多种技术并存的局面将长期存在,如何才能摆脱技术协同的内耗,让大数据直通生产力的彼岸?

QCon 回顾 | Data Fabric:逻辑统一、物理分散

2022-08-08
阅读 3 分钟
881
Data Fabric(数据编织),自 2019 年开始就在 Gartner 年度技术趋势榜单上安家,并在 2022 年被列为数据分析领域十大技术趋势之首,它究竟有哪些价值?又如何在企业落地?

数据治理体系演进简介

2022-08-05
阅读 9 分钟
600
网易内部如严选、云音乐、传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中,将治理的动作提前,这其实就是“开发治理一体化”;事后依赖数据资产健康评估和治理工具进行数据的治理,建立事前加事后的数据治理体系。

直播预约丨流式湖仓服务,大数据的终结?这场开源发布会为你揭晓!

2022-08-05
阅读 2 分钟
968
【点击立刻报名】8月11日,网易数帆将举办“企业级流式湖仓服务 Arctic 开源发布会”,邀请网易数帆大数据产品线及合作伙伴相关负责人联袂解读对数据技术演进及 Arctic 开源的思考,介绍 Arctic 项目进展、未来发展及社区规划,分享企业湖仓一体实践成果与心得。数据基础设施发展的脚步从未停歇,当前风头正盛的是湖仓一体...
封面图

有数大数据基础平台之智能运维平台EasyEagle介绍:集群队列篇

2022-07-22
阅读 4 分钟
1.9k
集群资源水位如何,利用率如何,是否需要扩容?队列为什么最近大量任务出现pending,什么原因造成?哪些任务占用了队列的大部分资源,是否合理,能否优化?任务运行为什么这么慢,哪里出现了问题?任务是否能优化,加快产出?任务或服务出现异常,能否自动运维处理?... ...

定档615 | 数字化基础软件自主创新分享周即将来袭,点击获取“通关密钥”!

2022-06-01
阅读 1 分钟
940
“科技自立自强”在党的十九届五中全会已上升至国家发展中的战略支撑地位。近年来,随着信息产业自主创新相关政策、技术路线和实践路径的逐步明晰,自主创新落地的难点也逐渐凸显,如核心能力起步晚,全栈系统经验少,应用迁移挑战多等。而基础软件作为一个难度高,差距大,周期长的领域,如何加快实现自主创新更是成为全...

有数BI大规模报告稳定性保障实践

2022-05-16
阅读 3 分钟
1.1k
随着数据化管理思维的逐渐深入人心,无论是网易集团内部用户还是外部商业化客户,越来越多的人在大规模使用有数BI。以严选为例,日常有访问量的报告有5w+,这些报告覆盖了用户、商品、渠道、流量、营销、仓储、供应商、财务等几乎所有业务板块,有些报告嵌入在管理层用的app中,有些报告用在了业务周会或复盘会,有些报...
封面图

数据标准在网易的实践

2022-05-11
阅读 12 分钟
1.9k
在生活中,标准与我们息息相关,吃的食品需要满足国家标准才能食用,汽车排放达标才能够上路行驶,电脑接口得满足统一的标准才能够与外设对接等等。而在数据的世界,数据标准也同等重要。我们期望将数据标准真正应用到实践中去,帮助客户解决资产化不足、数据质量难以提升、数据开发效率低等问题,于是网易开始了数据标...

T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践 网易数帆 网易数帆

2022-03-31
阅读 8 分钟
2.2k
在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上,T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3出行高级大数据工程师李心恺共同分享了 Apache Kyuubi(Incubating) 在T3出行的最新实践与应用,包括基于 Kyuubi 设计的 Flink SQL Engine,Kyuubi 与 Apache Linkis 的集成,以及在T3出行的落地实践。

eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践

2022-03-25
阅读 8 分钟
2.9k
本文来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享,介绍了Apache Kyuubi(Incubating)的基本架构和使用场景,eBay基于自身的需求对Kyuubi所做的增强,以及如何基于Kyuubi构建Unified & Serverless Spark Gateway。
封面图

巨变来了!金融大数据平台走向何方?

2022-03-22
阅读 4 分钟
1.2k
如今大数据早已成为金融机构核心竞争力的关键一环,其中,数据中台、大数据平台已经成为了金融机构全面数字化转型的关键,金融机构服务客户、创新产品、内部管理等都越来越依赖“数字”。
封面图