新华智云基于MaxCompute建设媒体大数据开放平台

2020-03-05
阅读 4 分钟
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以...

揭秘高德地图如何利用MaxCompute管理海量数据

2020-03-05
阅读 4 分钟
要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及...

优酷背后的大数据秘密:资源弹性,可支撑EB级存储

2020-03-05
阅读 5 分钟
大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年现在的5月优酷的发展历程,上面是计算资源,下面是...

快速了解IOT产品架构

2020-01-21
阅读 2 分钟
设备连接物联网平台,与物联网平台进行数据通信。物联网平台可将设备数据流转到其他阿里云产品中进行存储和处理。这是构建物联网应用的基础。 IoT SDK 物联网平台提供IoT SDK,设备集成SDK后,即可安全接入物联网平台,使用设备管理、数据分析、数据流转等功能。 只有支持TCP/IP协议的设备可以集成IoT SDK。 具体请参见...

六大场景迁移到RDS云数据库方案攻略

2020-01-21
阅读 1 分钟
RDS提供了多种数据迁移方案,可满足不同上云或迁云的业务需求,使您可以在不影响业务的情况下平滑将数据库迁移至阿里云云数据库RDS上面。通过使用阿里云数据传输服务(DTS),您可以实现MySQL数据库的结构迁移、全量迁移和增量迁移。另外,云数据库MySQL版还支持通过物理备份文件和逻辑备份文件两种途径,将云上数据迁移...

大兴机场一夜成网红圣地,也来了解一下机场视频监控数据如何上云

2020-01-19
阅读 1 分钟
利用已经训练完成的模型,进行推断或者预测的过程,例如识别一张图片中的内容。阿里云对象存储OSS:海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。详见[链接]

10年后,阿里给千万开源人写了一封信

2020-01-15
阅读 2 分钟
阿里妹导读:年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

案例解析|零售企业如何借助上云完美应对新挑战,把握新机遇

2020-01-10
阅读 5 分钟
经过了二十多年的粗放式快速发展,中国的制鞋业经历了高速发展阶段,当前以出口为主的制鞋产业,面对国际市场的萎缩,又加上来自主要市场国的反倾销等贸易保护措施下行压力较大,制鞋行业进入调整期。

阿里云正式推出内容平台“云栖号”:全面助力企业和个人上云决策

2020-01-07
阅读 2 分钟
1月7日,阿里云官网正式推出“云栖号”([链接] ),旨在为大家提供第一手的上云资讯,云产品快速入门,来自不同行业精选的企业上云案例,基于众多成功案例萃取而成的最佳实践,助力你进行上云决策,0门槛更轻松的上云。

美团点评基于 Flink 的实时数仓平台实践

2020-01-03
阅读 8 分钟
在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的支持,主要是在数据同步场景方面的尝试。在 2017 年底,美团点评实时计算平台引入了 Flink。相比于 Storm 和 Spark Streaming,Flink 在很多方面都具有优势。这个阶段我们进行了深度的平台...

日志服务(SLS)集成 Spark 流计算实战

2020-01-02
阅读 8 分钟
日志服务作为一站式的日志的采集与分析平台,提供了各种用户场景的日志采集能力,通过日志服务提供的各种与·与SDK,采集客户端(Logtail),Producer,用户可以非常容易的把各种数据源中的数据采集到日志服务的Logstore中。同时为了便于用户对日志进行处理,提供了各种支持流式消费的SDK,如各种语言的消费组,与 Spark...

9张图总结一下阿里云的2019

2020-01-02
阅读 3 分钟
9月25日云栖大会,阿里云智能总裁张建锋展示了阿里巴巴第一颗自研芯片——含光800,打破了两项世界纪录,性能和能效比均为第一,是全球最强的AI推理芯片。

读懂这本书,才算读懂阿里大数据

2020-01-02
阅读 11 分钟
2019年,是阿里巴巴第11个双11。众所周知,阿里的电商在线体系经过多年发展,可以支持峰值超过每秒50几万笔交易。但鲜有人知的是,海量的交易,创造了海量的数据,爆炸性的数据量激增,给狂欢过后的大数据处理,带来了大难题。

携程实时智能检测平台建设实践

2019-12-30
阅读 7 分钟
摘要:本次演讲将为大家介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet基本覆盖了携程所有业务线,监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于Flink实时计算引擎来实现异常...

Fuxi2.0—飞天大数据平台调度系统全面升级,首次亮相2019双十一

2019-12-27
阅读 10 分钟
伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 ODPS,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。

日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践

2019-12-25
阅读 7 分钟
导读:当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业 App 中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数...

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

2019-12-24
阅读 7 分钟
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在...

Spark整合Ray思路漫谈

2019-12-20
阅读 6 分钟
之前花了大概两到三天把Ray相关的论文,官网文档看了一遍,同时特意去找了一些中文资料看Ray当前在国内的发展情况(以及目前国内大部分人对Ray的认知程度)。

ClickHouse深度揭秘

2019-12-19
阅读 7 分钟
今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。

阿里风控大脑关于大数据应用的探索与实践

2019-12-18
阅读 7 分钟
以下内容根据演讲视频以及PPT整理而成。 本次分享主要围绕以下三个方面: 一、阿里风控大脑整体介绍二、近线引擎三、离线引擎 一、阿里风控大脑整体介绍 1. 阿里风控大脑是什么? 阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领...

仅1年GitHub Star数翻倍,Flink 做了什么?

2019-12-18
阅读 7 分钟
阿里妹导读:Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,Flink 已成为 Apache 基金会和 GitHub 社区最为活跃的项目之一。在 Flink Forward Asia 2019 上,阿里巴巴资深技术专家,实时计算负责人王峰 (莫问)总结了 2019 年 Flink 在中国的发展和...

“国货之光” 完美日记的微服务实践和优化思路

2019-12-16
阅读 4 分钟
今年双11,完美日记仅用28分钟就超过了2018年双11全天的销售额,成为第一个登上天猫双11彩妆榜首的国货品牌。在这个遍地都是漂亮小姐姐、号称男人(特指程序员)天堂的公司里,拥有着一支什么样的基础架构技术团队,他们是如何在 4 个月内筹建、上线电商平台的呢?本文将为您分享他们在实践微服务过程遇到的难点和优化思...

如何在 PyFlink 1.10 中自定义 Python UDF?

2019-12-13
阅读 11 分钟
我们知道 PyFlink 是在 Apache Flink 1.9 版新增的,那么在 Apache Flink 1.10 中 Python UDF 功能支持的速度是否能够满足用户的急切需求呢?

图神经网络(AliGraph)在阿里巴巴的发展与应用

2019-12-11
阅读 5 分钟
在大数据的背景下,利用高速计算机去发现数据中的规律似乎是最有效的手段。为了让机器计算的有目的性,需要将人的知识作为输入。我们先后经历了专家系统、经典机器学习、深度学习三个阶段,输入的知识由具体到抽象,由具体规则到特征再到模式,越来越宏观。相对来说,抽象的层次变高了,覆盖面变广了,但我们对底层的感...

​每秒7亿次请求,阿里新一代数据库如何支撑?

2019-12-10
阅读 14 分钟
阿里妹导读:Lindorm,就是云操作系统飞天中面向大数据存储处理的重要组成部分。Lindorm是基于HBase研发的、面向大数据领域的分布式NoSQL数据库,集大规模、高吞吐、快速灵活、实时混合能力于一身,面向海量数据场景提供世界领先的高性能、可跨域、多一致、多模型的混合存储处理能力。目前,Lindorm已经全面服务于阿里经...

五年双十一:SLS数据管道发展之路

2019-12-10
阅读 8 分钟
日志服务SLS是一款飞天团队自研产品,服务云上云下3W+客户,并在阿里经济体中作为日志数据的基础设施,在过去几年中经历多次双十一、双十二、新春红包锤炼。

Flink Forward Asia 2019 | 总结和展望(附PPT)

2019-12-06
阅读 8 分钟
11 月 28 - 30 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 2000,同比去年增加近 100%。

开源 | 全球首个批流一体机器学习平台 Alink

2019-12-06
阅读 7 分钟
阿里妹导读:Flink 在机器学习领域的进展一直是众多开发者关注的焦点,今年 Flink 迎来了一个小里程碑:机器学习算法平台 Alink 开源,这也宣告了 Flink 正式切入 AI 领域。

开发者解读:为什么蚂蚁要用融合计算这种新计算模式?

2019-12-05
阅读 5 分钟
导读:如今大部分人工智能应用是基于监督学习范式开发的,即模型在线下进行训练,然后部署到服务器上进行线上预测,这样的开发方式在实时响应上存在较大的局限。随着计算和 AI 体系逐步成熟,我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化,这推动了机器学习从传统离线学习逐渐向在线学习演进。...

医疗数据典型特征及架构发展方向研究

2019-12-04
阅读 3 分钟
医疗健康产业目前呈高速发展状态,处在互联网对医疗行业赋能的关键阶段,由于医疗行业数据的隐私性较强,通过传统方式很难获取公开的医疗健康数据进行研究,根据阿里云天池比赛赛题设置研究及提供的脱敏数据集着手进行分析是比较理想的手段。本文的目的在于对医院的信息系统流程进行思考,结合公开数据集对于医疗健康数...