深度学习弹性数据流水线系统 GoldMiner,大幅提升任务和集群效率

2023-06-25
阅读 4 分钟
近日,阿里云机器学习平台PAI和北京大学杨智老师团队合作的论文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被数据库领域顶会SIGMOD 2023接收。

BladeDISC 0.2.0更新发布

2022-05-24
阅读 4 分钟
BladeDISC是目前业界领先的支持动态shape的深度学习优化编译器。深度学习优化编译器负责将上层的神经网络计算图转换为底层硬件可执行的程序,当前流行的深度学习优化编译器(TVM[1]、XLA[2]、TensorRT[3]等)对静态shape的支持力度较大,对动态shape的支持则有所欠缺。其中,XLA目前只支持静态shape,TensorRT可以支持ra...
封面图

MAE 自监督算法介绍和基于 EasyCV 的复现

2022-05-20
阅读 8 分钟
简介:自监督学习(Self-Supervised Learning)能利用大量无标注的数据进行表征学习,然后在特定下游任务上对参数进行微调。通过这样的方式,能够在较少有标注数据上取得优于有监督学习方法的精度。近年来,自监督学习受到了越来越多的关注,如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在C...
封面图

阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

2022-05-12
阅读 7 分钟
简介:近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试...
封面图

阿里 BladeDISC 深度学习编译器正式开源

2022-02-18
阅读 9 分钟
简介:随着深度学习的不断发展,AI模型结构在快速演化,底层计算硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对计算框架的持续迭代。深度编译器就成了应对以上问题广受关注的技术方向,让用户仅需专注于上层模型开发,降低手工优化性能的人力开发成本,进一...
封面图

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践

2022-02-09
阅读 6 分钟
简介:本文主要介绍云知声 Atlas 超算平台基于 Fluid + Alluxio 的计算加速实践,以及 Fluid 是如何为 Atlas 带来全新的数据集管理方式的。
封面图

贾扬清演讲实录:一个AI开发者的奇幻漂流

2021-12-24
阅读 4 分钟
简介:2021阿里灵杰AI工程化峰会,贾扬清深度解读阿里灵杰大数据和AI一体化平台演讲人:贾扬清演讲主题:一个AI开发者的奇幻漂流活动:2021阿里灵杰AI工程化峰会对于绝大多数人来说,这一波AI浪潮兴许是从深度学习开始的。2011年谷歌发表的一篇文章讲到,用16000个CPU和11个参数的连接来训练一个能够识别猫的模型。今天A...
封面图

量化感知训练实践:实现精度无损的模型压缩和推理加速

2021-12-24
阅读 7 分钟
简介:本文以近期流行的YOLOX[8]目标检测模型为例,介绍量化感知训练的原理流程,讨论如何实现精度无损的实践经验,并展示了量化后的模型能够做到精度不低于原始浮点模型,模型压缩4X、推理加速最高2.3X的优化效果。
封面图

“预习-上课-复习”:达摩院类人学习新范式探索

2021-10-29
阅读 7 分钟
简介: 预习时关注重点,上课时由易到难,复习时举一反三,能否让机器也按照“预习-上课-复习”的学习范式进行学习呢? 达摩院对话智能(Conversational AI)团队对这个问题进行了研究探索,先将其用在了人机对话领域,在国际知名多轮对话数据集MultiWoz上取得了最好结果。
封面图

重磅发布 | 380 页高德核心技术公开,速度收藏!

2020-01-10
阅读 6 分钟
阿里妹导读:回首2019年,作为首个日活过亿的国民出行平台,高德地图to C和to B的用户数都再攀新高。在背后支撑和驱动业务快速发展的,正是数千名日夜奋战的高德技术人。2019年,人工智能技术在高德地图全面落地,在视觉、搜索、导航、定位等业务场景发挥了越来越大的作用;客户端&移动、汽车技术、服务架构、数据研...

听上去很美的 Serverless 在中国落地的怎么样了?

2020-01-02
阅读 4 分钟
说起当前最火的技术,不得不提的一个概念就是 Serverless。2019 年几乎所有人都在说 Serverless,实际落地 Serverless 的有多少?Serverless 作为一种新型的互联网架构,直接或间接推动了云计算的发展,从 AWS Lambda 到阿里云函数计算,Serverless 一路高歌,同时基于 Serverless 的轻量计算开始登录云计算的舞台。

携程实时智能检测平台建设实践

2019-12-30
阅读 7 分钟
摘要:本次演讲将为大家介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet基本覆盖了携程所有业务线,监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于Flink实时计算引擎来实现异常...

嘘,这是手淘双11 GMV 暴涨的秘密

2019-12-26
阅读 5 分钟
阿里妹导读:信息流作为手淘的一大流量入口,对手淘的浏览效率转化和流量分发起到至关重要的作用。在探索如何给用户推荐其喜欢的商品这条路上,我们首次将端计算大规模应用在手淘客户端,通过端侧丰富的用户特征数据和触发点,利用机器学习和深度神经网络,在端侧持续感知用户意图,抓住用户转瞬即逝的兴趣点,并给予用...

使用函数计算三步实现深度学习 AI 推理在线服务

2019-12-19
阅读 6 分钟
目前深度学习应用广发, 其中 AI 推理的在线服务是其中一个重要的可落地的应用场景。本文将为大家介绍使用函数计算部署深度学习 AI 推理的最佳实践,  其中包括使用 FUN 工具一键部署安装第三方依赖、一键部署、本地调试以及压测评估, 全方位展现函数计算的开发敏捷特性、自动弹性伸缩能力、免运维和完善的监控设施。

基于深度学习的图像分割在高德的实践

2019-12-17
阅读 5 分钟
图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。图像分割是将数字图像细分为多个图像子区域的过程,通过简化或改变图像的表示形式,让图像能够更加容易被理解。更简单地说,图像分割就是为数字图像中的每一个像素附加标签,使得具有相同标签的像素具有某种共同的视觉特性。

图神经网络(AliGraph)在阿里巴巴的发展与应用

2019-12-11
阅读 5 分钟
在大数据的背景下,利用高速计算机去发现数据中的规律似乎是最有效的手段。为了让机器计算的有目的性,需要将人的知识作为输入。我们先后经历了专家系统、经典机器学习、深度学习三个阶段,输入的知识由具体到抽象,由具体规则到特征再到模式,越来越宏观。相对来说,抽象的层次变高了,覆盖面变广了,但我们对底层的感...

深度学习在商户挂牌语义理解的实践

2019-12-09
阅读 3 分钟
​导读:高德地图拥有几千万的POI兴趣点,例如大厦、底商、学校等数据,而且每天不断有新的POI出现。为了维持POI数据的鲜度,高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂,多变,同时,名称制作工艺要求严格,通过人工来制作POI名称,需要花费大量的人力成本。

开放下载!从RCNN到SSD,这应该是最全的一份目标检测算法盘点

2019-11-29
阅读 3 分钟
导读:从简单的图像分类到3D姿势识别,计算机视觉从来不缺乏有趣的问题和挑战。通过肉眼我们可以检测出一张宠物照中的猫和狗,可以识别出梵高作品《星夜》中的星星和月亮,那如何通过算法赋予机器“看”的智能,就是我们接下来要讲的。

贾扬清:把生命浪费在有意思的事情上

2019-10-25
阅读 4 分钟
昨天,是1024程序员节。在这个“攻城狮”自带光芒的日子里,阿里妹请来AI大神贾扬清,作为一位开发者,聊一聊他自己的开发者经历,希望对你有所启发。

高德地图首席科学家任小枫:视觉智能在高德地图的应用

2019-10-17
阅读 5 分钟
2019杭州云栖大会上,高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位、时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆,听众反响强烈。我们把其中的优秀演讲内容整理成文并陆续发布出来,本文为其中一篇。

干货|Flutter 原理与闲鱼深度实践

2019-10-16
阅读 7 分钟
王康(正物)—— Flutter 官方成员 阿里巴巴技术专家,之前主要负责 Flutter 在闲鱼中的混合开发体系,目前重点关注 Flutter 深入度以及生态相关的工作。本文将分享三方面内容, Flutter 的原理、 Flutter 在闲鱼中的应用,最后介绍我们在深度方面的一些探索。

藏不住了,这就是阿里 AI 的真正实力!

2019-09-27
阅读 3 分钟
不好意思,我要放大招了! 在今天的杭州云栖大会上,阿里巴巴首次公布人工智能调用规模: 每天调用超 1万亿 次服务全球 10亿 人日处理图像 10亿 张视频 120万 小时语音 55万 小时自然语言 5千亿 句 在AI芯片、AI云服务、AI算法、AI平台、产业AI,阿里巴巴实现全线领先! 有才的网友还帮我们做了一张图 666 ↓↓ 在AI芯片层...

Kubernetes-native 弹性分布式深度学习系统

2019-09-16
阅读 7 分钟
9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 Tens...

无标注数据是鸡肋还是宝藏?阿里工程师这样用它​

2019-08-15
阅读 9 分钟
阿里妹导读:针对业务场景中标注数据不足、大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示。这种思想与目前 NLP 领域前沿的 Bert 等预训练模型不谋而合,但是由于行为序列数据和业务的特点显著区别于 NLP,模型...

FM算法介绍

2019-08-06
阅读 2 分钟
FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。

自动驾驶中高精地图的大规模生产:视觉惯导技术在高德的应用

2019-08-02
阅读 3 分钟
导读:导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足,针对自动驾驶应用的需求,我们提出了利用视觉惯导技术制作高精地图的方法。

5分钟在PAI算法市场发布自定义算法

2019-08-01
阅读 3 分钟
在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。

独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?

2019-07-30
阅读 9 分钟
真正跟贾扬清近距离接触后笔者发现,这位被很多人称为“AI 架构大神”的 80 后青年科学家,更像一位温柔且平易近人的邻家“学霸”,虽然技能全面碾压但丝毫没有架子。加入阿里以来,贾扬清一直忙于了解集团覆盖范围极广的各项产品和业务,近两个月才开始在一些重要活动上以新身份亮相。他在访谈中直言,阿里非常大、方向非常...

在阿里,我如何做好技术项目管理?

2019-07-26
阅读 5 分钟
阿里妹导读:在技术公司、尤其是互联网公司,技术人员作为PM(项目经理)是非常常见的。有些同学得心应手,有条不紊,能得到清晰稳定的预期结果;有些同学则在过程中遇到各种闹心的事,最后不是项目上不了线,就是带着问题或各种人员的不满硬上。当然这两种都是比较极端的结果。理性思考下,这里面有没有规律在?今天,阿...

时尚电商新赛道:揭秘 FashionAI 技术

2019-07-18
阅读 5 分钟
阿里妹导读:雷音是阿里巴巴研究员、淘系技术部 FashionAI 负责人,在淘系技术嘉年华硅谷站,他分享了《时尚电商新赛道— FashionAI 中的技术》 ,旨在揭秘:从面向机器学习的知识重建切入,提出了在 AI 能力的推动下,让人值得期待的未来。究竟在阿里巴巴研究员眼中,未来是什么样的?接下来,我们一起探秘。