Hago 的 Spark on ACK 实践

2023-11-16
阅读 3 分钟
Hago 于 2018 年 4 月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago 融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、 3D 虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。

阿里云EMR 2.0:定义下一代云原生智能数据湖

2023-03-10
阅读 5 分钟
摘要:本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:1.兼容开源阶段2.贡献开源阶段3.超越开源阶段

Spark+Celeborn:更快,更稳,更弹性

2023-02-09
阅读 7 分钟
摘要:本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:传统 Shuffle 的问题Apache Celeborn (Incubating)简介Celeborn 在性能、稳定性、弹性上的设计

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

2022-05-19
阅读 8 分钟
简介:本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。
封面图

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

2022-03-10
阅读 6 分钟
简介:本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
封面图

揭秘阿里云神龙团队拿下TPCx-BB排名第一的背后技术

2022-01-14
阅读 4 分钟
简介:近日,TPC Benchmark Express-BigBench(简称TPCx-BB)公布了最新的世界排名,阿里云自主研发的神龙大数据加速引擎获得了TPCx-BB SF3000排名第一的成绩。TPCx-BB测试分为性能与性价比两个维度。其中,在性能维度,在本次排名中,阿里云领先第二名高达41.6%,达到了2187.42 BBQpm,性价比领先第二名40%,降低到346....
封面图

顺丰科技 Hudi on Flink 实时数仓实践

2021-10-12
阅读 5 分钟
本文作者为刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细节,以及未来的一些规划。主要内容为:
封面图

伴鱼:借助 Flink 完成机器学习特征系统的升级

2021-09-07
阅读 5 分钟
本文作者陈易生,介绍了伴鱼平台机器学习特征系统的升级,在架构上,从 Spark 转为 Flink,解决了特征上线难的问题,以及 SQL + Python UDF 如何用于生产实践。 主要内容为:
封面图

EMR on ACK 全新发布,助力企业高效构建大数据平台

2021-09-03
阅读 2 分钟
简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于...
封面图

基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案

2021-08-20
阅读 5 分钟
简介: Spark SQL 作为 Spark 用来处理结构化数据的一个基本模块,已经成为多数企业构建大数据应用的重要选择。但是,在大规模连接(Join)、聚合(Aggregate)等工作负载下,Spark 性能会面临稳定性和性能方面的挑战。Spark SQL 作为 Spark 用来处理结构化数据的一个基本模块,已经成为多数企业构建大数据应用的重要选...
封面图

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

2021-06-07
阅读 2 分钟
开源大数据社区 & 阿里云 EMR 系列直播 第六期主题:EMR spark on ACK 产品演示及最佳实践讲师:石磊,阿里云 EMR 团队技术专家内容框架:• 云原生化挑战及阿里实践• Spark 容器化方案• 产品介绍和演示直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接[链接]一、云原生化挑战及阿里实践大数据技术发展趋势...
封面图

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

2021-06-07
阅读 5 分钟
主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人
封面图

【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践

2021-06-04
阅读 7 分钟
美的暖通与楼宇事业部(以下简称美的暖通)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案,远销海内外200多个国家。当前事业部设备数据上云仅停留在数据存储层面,缺乏挖掘数据价值的平台,造成大量数据荒废,并且不断消耗存...
封面图

Spark在MaxCompute上是如何运行的

2020-03-13
阅读 4 分钟
左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。

日志服务(SLS)集成 Spark 流计算实战

2020-01-02
阅读 8 分钟
日志服务作为一站式的日志的采集与分析平台,提供了各种用户场景的日志采集能力,通过日志服务提供的各种与·与SDK,采集客户端(Logtail),Producer,用户可以非常容易的把各种数据源中的数据采集到日志服务的Logstore中。同时为了便于用户对日志进行处理,提供了各种支持流式消费的SDK,如各种语言的消费组,与 Spark...

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

2019-12-24
阅读 7 分钟
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在...

Spark整合Ray思路漫谈

2019-12-20
阅读 6 分钟
之前花了大概两到三天把Ray相关的论文,官网文档看了一遍,同时特意去找了一些中文资料看Ray当前在国内的发展情况(以及目前国内大部分人对Ray的认知程度)。

基于 Tracing 数据的拓扑关系生成原理

2019-11-20
阅读 5 分钟
随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持...

Spark Relational Cache实现亚秒级响应的交互式分析

2019-11-05
阅读 4 分钟
本场视频链接:[链接] 本场PPT资料:[链接] 本次分享主要分为以下四个方面: 项目介绍 技术分析 如何使用 性能分析 一、项目介绍 项目背景 阿里云EMR是一个开源大数据解决方案,目前EMR上面已经集成了很多开源组件,并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储,比如对象存储OSS、集群内部自建的HDFS...

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

2019-09-16
阅读 3 分钟
预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万条访问统计,这样就能降低1000倍的数据处理量,从而在查询时大幅减少计算量,提升响应速度。更高层的聚合可以带来进一步的性能提升,例如,在时间维按天聚合,或者通过站点而不是URL聚合。本文,我...

5分钟在PAI算法市场发布自定义算法

2019-08-01
阅读 3 分钟
在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

2019-07-16
阅读 5 分钟
现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。

使用Spark Streaming SQL基于时间窗口进行数据统计

2019-07-08
阅读 3 分钟
流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。比如埋点日志中每条日志记录了埋点处操作的时间,或者业务系统中记录了用户操作时间,用于统计各种操作处理的频率等,或者根据规则匹配,进行异常行为检测或监控系统告警。这样的时间数据都会包含在事件数据中,需要提取...

EMR Spark Runtime Filter性能优化

2019-07-05
阅读 3 分钟
Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。

用Flink取代Spark Streaming!知乎实时数仓架构演进

2019-06-28
阅读 8 分钟
“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数...

Spark内置图像数据源初探

2019-06-27
阅读 7 分钟
作者:林武康,花名知瑕, 阿里巴巴计算平台事业部EMR团队的高级开发工程师,Apache HUE Contributor, 参与了多个开源项目的研发工作,对于分布式系统设计应用有较丰富的经验,目前主要专注于EMR数据开发相关的产品的研发工作。

Spark内置图像数据源初探

2019-06-17
阅读 7 分钟
在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.    本文将介绍图像数据源的实现细节和使用方法.

漫谈分布式计算框架

2019-06-06
阅读 6 分钟
如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 spark 与 MPI 呢?这个就更远了。虽然这样问多少有些不严谨,但是它们都有共同的一部分,这就是我们今天谈论的一个话题,一个比较...

浅谈 Spark 的多语言支持

2019-04-24
阅读 4 分钟
作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。

Spark in action on Kubernetes - Playground搭建与架构浅析

2019-01-23
阅读 5 分钟
Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理,虽然Spark也支持了类似Yarn等动态的资源管理器,但是这些资源管理并不是面向动态的云基础...