我被“非结构化数据包围了”,请求支援!

2019-09-09
阅读 6 分钟
阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信...

搜索场景下的智能推荐演变之路

2019-09-06
阅读 6 分钟
摘要:传统的推荐手段主要还是深度挖掘用户行为和内容本身相似性的价值,包括但不限于协同过滤,内容表征+向量召回,以及各式各样的点击率预估模型,然后这样的推荐行为缺乏内在的逻辑性和可解释性,有一种知其然,不知所以然的体感。本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。

AI时代,你的职业会是?99%的人都无法直面!

2019-09-06
阅读 1 分钟
在我10岁的时候,算命先生曾对说我30岁时我会每天与八阿哥玩在一起。当时懵懂的我一脸茫然,想着谁是我的八阿哥,却在30岁的这一年意识到自己确实日以继夜的与八阿哥在一起。

首发!《长安十二时辰背后的技术秘籍》正式公开,速来下载

2019-09-05
阅读 3 分钟
这就是《长安十二时辰》的故事,剧中有恢弘的长安美景、让人流口水的水晶柿子/水盆羊肉,还有张小敬和檀棋“在一起”呼声……然而,最让人刮目相看的却是“大唐大数据系统”。靖安司本身是大数据存储,传递消息的望楼是数据加密和数据传输,长安沙盘是数据可视化,还有最重要的大案牍术则是智能推荐系统。

在SLS中快速实现异常巡检

2019-09-02
阅读 7 分钟
一、相关算法研究 1.1 常见的开源算法 Yahoo:EGADS FaceBook:Prophet Baidu:Opprentice Twitter:Anomaly Detection Redhat:hawkular Ali+Tsinghua:Donut Tencent:Metis Numenta:HTM CMU:SPIRIT Microsoft:YADING Linkedin:SAX改进版本 Netflix:Argos NEC:CloudSeer NEC+Ant:LogLens MoogSoft:一家创业公...

地图POI类别标签体系建设实践

2019-08-28
阅读 8 分钟
POI是“Point of interest”的缩写,中文可以翻译为“兴趣点”。在地图上,一个POI可以是一栋房子、一个商铺、一个公交站、一个湖泊、一条道路等。在地图搜索场景,POI是检索对象,等同于网页搜索中的网页。在地图客户端上,用户选中一个POI,会有一个悬浮的气球指向这个POI。

阿里云与A站在一起后,悄悄干了件大事

2019-08-19
阅读 2 分钟
A站去年与阿里云达成此项合作。在迁移过程中,阿里云提供专业技术解决方案团队,为A站建立就近迁移方案,定制专门的迁移工具,同时加以自动和人工双重校验环节,在确保数据安全的情况下完成高效迁移。整个迁移上云的工作历时半年多,完整迁移了A站建成十多年以来,累计数百万份的视频稿件。

揭秘!机器人和你对话时在想什么?

2019-08-19
阅读 7 分钟
阿里妹导读:为什么聊天机器人越来越普及?聊天机器人不仅可以节省时间,提升效率,还能一天24小时提供服务,更是可以减少误差。聊天机器人背后的问题原理是什么?效率如何提升?就是今天我们要了解的内容。本篇内容已被收录于ACL2019,希望对你有所帮助。

系统性能提升利刃 | 缓存技术使用的实践与思考

2019-08-16
阅读 9 分钟
按照现在流行的互联网分层架构模型,最简单的架构当属Web响应层+DB存储层的架构。从最开始的单机混合部署Web和DB,到后来将二者拆分到不同物理机以避免共享机器硬件带来的性能瓶颈,再随着流量的增长,Web应用变为集群部署模式,而DB则衍生出主从机来保证高可用,同时便于实现读写分离。这一连串系统架构的升级,本质上...

闲鱼亿级商品结构化背后的思考和演进

2019-08-14
阅读 4 分钟
闲鱼是一个典型的C2C场景的闲置交易平台。每个在闲鱼的用户都能享受到自由交易的乐趣。在这里,可能你只要简单的输入商品名,商品价格,库存等信息就能完成一个商品的发布。即便是发布以后,你也可以随时修改价格,内容等信息。充分的自由是闲鱼活力的来源,但是这对于一个电商品台来说却有着难言的痛苦。本文要说的商品...

优化 Tengine HTTPS 握手时间

2019-08-12
阅读 4 分钟
网络延迟是网络上的主要性能瓶颈之一。在最坏的情况下,客户端打开一个链接需要DNS查询(1个 RTT),TCP握手(1个 RTT),TLS 握手(2个RTT),以及最后的 HTTP 请求和响应,可以看出客户端收到第一个 HTTP 响应的首字节需要5个 RTT 的时间,而首字节时间对 web 体验非常重要,可以体现在网站的首屏时间,直接影响用户判...

如何在视频里任意抠图?阿里工程师做到了!

2019-08-08
阅读 5 分钟
阿里妹导读:现在的我们在手机上花费了越来越多的时间,其中,视频又格外地吸引我们的注意力。有很多好玩的视频,需要把前景物体从视频中分割出来,这需要花费创作者99%以上的时间。今天,阿里资深算法专家任海兵将告诉:阿里巴巴关于视频物体分割算法的三个方向与最新应用,希望对喜欢视频创作的你有所帮助。

FM算法介绍

2019-08-06
阅读 2 分钟
FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。

自动驾驶中高精地图的大规模生产:视觉惯导技术在高德的应用

2019-08-02
阅读 3 分钟
导读:导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足,针对自动驾驶应用的需求,我们提出了利用视觉惯导技术制作高精地图的方法。

5分钟在PAI算法市场发布自定义算法

2019-08-01
阅读 3 分钟
在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。

字节码技术在模块依赖分析中的应用

2019-07-30
阅读 4 分钟
近年来,随着手机业务的快速发展,为满足手机端用户诉求和业务功能的迅速增长,移动端的技术架构也从单一的大工程应用,逐步向模块化、组件化方向发展。以高德地图为例,Android 端的代码已突破百万行级别,超过100个模块参与最终构建。

独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?

2019-07-30
阅读 9 分钟
真正跟贾扬清近距离接触后笔者发现,这位被很多人称为“AI 架构大神”的 80 后青年科学家,更像一位温柔且平易近人的邻家“学霸”,虽然技能全面碾压但丝毫没有架子。加入阿里以来,贾扬清一直忙于了解集团覆盖范围极广的各项产品和业务,近两个月才开始在一些重要活动上以新身份亮相。他在访谈中直言,阿里非常大、方向非常...

机器学习在交通标志检测与精细分类中的应用

2019-07-25
阅读 4 分钟
数据对于地图来说十分重要,没有数据,就没有地图服务。用户在使用地图服务时,不太会想到数据就像冰山一样,用户可见只是最直接、最显性的产品功能部分,而支撑显性部分所需要的根基,往往更庞大。

高德网络定位之“移动WiFi识别”

2019-07-24
阅读 4 分钟
随着时代的发展,近10年来位置产业蓬勃发展,定位能力逐渐从低精度走向高精度,从部分场景走向泛在定位。设备和场景的丰富,使得定位技术和能力也不断的优化更新。定位能力包括GNSS、DR(航迹推算)、MM(地图匹配)、视觉定位和网络定位等。

时尚电商新赛道:揭秘 FashionAI 技术

2019-07-18
阅读 5 分钟
阿里妹导读:雷音是阿里巴巴研究员、淘系技术部 FashionAI 负责人,在淘系技术嘉年华硅谷站,他分享了《时尚电商新赛道— FashionAI 中的技术》 ,旨在揭秘:从面向机器学习的知识重建切入,提出了在 AI 能力的推动下,让人值得期待的未来。究竟在阿里巴巴研究员眼中,未来是什么样的?接下来,我们一起探秘。

机器学习在高德起点抓路中的应用实践

2019-07-18
阅读 3 分钟
导读:高德地图作为中国领先的出行领域解决方案提供商,导航是其核心用户场景。路线规划作为导航的前提,是根据起点、终点以及路径策略设置,为用户量身定制出行方案。

咱们从头到尾说一次 Java 垃圾回收

2019-07-15
阅读 7 分钟
确实,在 Java 的世界里,似乎我们不用对垃圾回收那么的专注,很多初学者不懂 GC,也依然能写出一个能用甚至还不错的程序或系统。但其实这并不代表 Java 的 GC 就不重要。相反,它是那么的重要和复杂,以至于出了问题,那些初学者除了打开 GC 日志,看着一堆0101的天文,啥也做不了。

QPS 提升60%,揭秘阿里巴巴轻量级开源 Web 服务器 Tengine 负载均衡算法

2019-07-12
阅读 5 分钟
在阿里七层流量入口接入层(Application Gateway)场景下, Nginx 官方的Smooth Weighted Round-Robin( SWRR )负载均衡算法已经无法再完美施展它的技能。 Tengine 通过实现新的负载均衡算法Virtual Node Smooth Weighted Round-Robin(VNSWRR )不仅优雅的解决了 SWRR 算法的缺陷,而且QPS处理能力相对于 Nginx 官方的...

UI2CODE复杂背景无法识别?闲鱼工程师这样打造高准确率方案

2019-07-10
阅读 3 分钟
复杂背景内容提取指的是从复杂的背景中提取出特定的内容,例如在图片中提取特定的文字,在图片中提取特定的叠加图层等等。这是一个业界难题,基于传统的图像处理的方法存在准确率和召回率的问题,没法解决语义的问题。而主流的机器学习的方法,例如目标检测无法获取像素级别的位置信息,而语义分割的方法则只能提取像素...

机器学习在高德搜索建议中的应用优化实践

2019-07-10
阅读 4 分钟
导读:高德的愿景是:连接真实世界,让出行更美好。为了实现愿景,我们要处理好LBS大数据和用户之间的智能链接。信息检索是其中的关键技术,而搜索建议又是检索服务不可或缺的组成部分。

千亿级的数据难题,优酷工程师怎么解决?

2019-07-10
阅读 5 分钟
阿里妹导读:优酷一天的日志量会达到千亿级别,面对如此大的数据样本,2017年5月,优酷完成了从Hadoop迁移到阿里云MaxCompute,实现计算消耗和储存的消耗呈下降趋势,得到了非常大的收益。今天,阿里数据技术专家门德亮给大家做个分享,从为什么要用MaxCompute,到优酷的业务场景下典型的方案及应用分析,聊聊迁移后对业...

开源背后 | 面对端侧推理引擎的挑战,阿里工程师如何应对?

2019-07-03
阅读 7 分钟
阿里妹导读:MNN(Mobile Neural Network)已于今年5月7日在 Github 上正式开源。淘宝无线开发专家——陈以鎏(离青)在 GMTC 全球大前端技术大会为大家分享了 MNN 开发、开源中的思考与总结,通过淘宝在移动 AI 上的实践经验,你将会了解移动 AI 的发展状况和应用场景,以及通过端侧推理引擎了解移动/ IoT 深度优化策略。

同学,要不要来挑战双11零点流量洪峰?

2019-06-21
阅读 4 分钟
阿里妹导读:双十一的零点,整个电商系统的请求速率到达峰值。如果将这些请求流量只分配给少部分 server,这些机器接收到的请求速率会远超过处理速率,新来的任务来不及处理,就会产生请求任务堆积。今年的中间件性能挑战赛就围绕“挑战双11零点流量洪峰”展开。自2015年开始,中间件性能挑战赛已经成功举办了四届,被历年...

如何将深度学习训练速度提升一百倍?PAISoar 来了

2019-06-12
阅读 8 分钟
阿里妹导读:得力于数据规模增长、神经网络结构的演进和计算能力的增强,深度学习的图像处理、语音识别等领域取得了飞速发展。随着训练数据规模和模型复杂度的不断增大,如何充分利用分布式集群的计算资源加快训练速度,提升业务支持能力成为用户非常关注的问题。今天,我们就来分享阿里工程师的实践成果:将深度学习模...

优酷背后的大数据秘密

2019-06-12
阅读 5 分钟
大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年现在的5月优酷的发展历程,上面是计算资源,下面是...