简介: 本次视频空无达摩院通过图像视觉、语言交互、自然语言处理、决策智能四个方向以及应用产品的介绍,向大家分享机器智能技术的发展,通过分析“大数据+算力”,讲解当今AI发展的动力,最后给大家分享了AI关键技术,希望通过技术创造新商业。
一、图像视觉——视觉技术概览
图像视觉技术如今被广泛应用在各个产业,如影视行业。有很多方向值得我们学习
(一)图像视觉基本介绍
1.图像处理和理解
图像处理和理解是图像视觉里最基础技术,即使在视频也需要依赖图像做基础处理。这包括图像分类、图像分割、文字识别。图像分类针对大规模标签空间、识别和打标,解决数据分布不均匀及颗粒问题。图像分割在日常应用广泛,在各种平面图像甚至不够清晰的图片结合现实中做到精准分割。大量图像中包含结构化信息,如何把图像里的信息转化为文字这就需要依赖于图像理解,OCR通过对图片中有用的信息进行定位、识别和结构化提取,快速实现图片到结构化文字转换。
2.视频内容分析
随着5G的发展,视频内容越来越广泛应用,但是企业对视频的应用更多用在存储,缺乏对视频内容理解。在大家发布视频,国家如何审核视频就成为一个问题,因此通过多模态及跨媒体理解,利用海量多模态数据(图像/文本/视频等)构建新的学习模型,提升对图像和视频的理解,实现多模态交互,这对视频审核能够提供更大便利
3.自然人识别
利用计算机视觉技术判断图像或者视频序列中是否存在特定的人。例如日常是身份证人脸识别
4.三维视觉
让智能设备可以以快速物体的尺寸、体积等立体信息,精确生成3D模型,通过三维视觉构建虚拟跟现实社会进行交互和再次渲染,创造出脱离现实的内容。
(二)图像视觉:图像/视频产品
1.图像搜索:通过图像识别和搜索功能,实现以图搜图,广泛应用在电商图库,例如在淘宝通过图片搜索产品。此外还运用在商标LOGO、通用图库、布料纺织等场景。
2.印刷文字识别:对图像的文字进行定位识别及结构化理解,提供多种部署方式,支持复杂背景图片、多类型卡证票文档。能够应用外贸行业,海关大量的票据如果能够进行结构化理解,将会节省更多时间,提高效率。
3.天巡:基于遥感卫星进行检测和识别,如今在农业、工业以及建筑等得到了更多更广泛应用。
4.AI安检:在日常使用较高,由于安检准确率要求非常高,因此在使用过程中不能完全脱离人工,但是可以把有风险的情况下进行核实,辅助安检人员识别,如今在杭州机场已经开始应用
5.AI防损:应用更多在商铺中,基于人体姿态、商品检测和跟踪能力,预警高危行为防止损失,进行用户行为分析和提升营销转换。
(三)图像视觉——三维产品
1.足帮帮:以3D模型脚型扫描重构为基础的鞋类行业解决方案,通过门店产品矩阵帮助品牌商或制造商等转型
2.临云镜:利用三维重构,为用户提供基于全景图片的空间三模化重构,链接企业之间多维度的商业关系,创造优秀的用户体验。当今广泛应用在对于展馆、商城中。
3.图像生成:对图像目标进行去除、替换,生成2D-3D图像;推进图像服务前沿方向,如自动横幅或广告生成、根据文字描述自动生成图像等。
4.iHome:基于图像/视频捕捉,通过场景重建及三维模型嵌入,为家庭家居行业提供效果自然的图像/视频的混合现实展示,增强消费体验。
二、语言交互:识别+交互
(一)基本介绍
1.语音识别ASR
基于工业级大规模机器学习训练平台,充分考虑语音、语音领域知识及复杂场景环境干扰、在数据、算法、架构、应用层面综合构建了整个能力,为用户提供高质量的语音识别能力。
在目前下,噪音对于语音识别的干扰问题仍旧没有被解决,依旧是各企业需要解决问题。但并不阻碍目前的应用,如今正确率已经大幅度提升。
2.语音合成TTS
通过先进的深度学习技术,将文本转换为自然流畅的语音。目前在天猫精灵方糖R语音定制智能音箱、钉钉推送语音信息已经应用了语音合成技术。目前语音合成已经发展到与人说话的语音没有太大差别,甚至可以达到区分不了是人在说话还是机器在说话。
(二)语音交互——产品
1.交互设备类:地铁语音售卖机、语音点餐机、天猫精灵智能音箱
2.语音服务类:客服机器人(如支付宝95188电话客服)、高德地图、钉钉语音消息推送
三、自然语言处理:深度模型及语义计算
(一)基本介绍
1.深度语言模型
A.多语言神经网络机器翻译是自然语言处理中最早的突破,不同语言文字映射到统一语义空间,在编码到解码过程,生成不同目标的语言文字。
B.机器阅读理解,阅读材料映射到语义空间,通过编码,使得问题答案吧语义匹配
2.语义计算
数据转化为语义知识:构建服务阿里经济可共用语言表示学习底座,提供大规模语言模型训练和服务,完成沉淀和创新,在经济体中各项经济中得到应用,并产生增值。
(二)自然语言处理:应用:
1.地址标准化:用海量地址语料库及超强的NLP算法技术实力,用于沉淀高性能及高准确率标准地址实现客户地址数据的清洗治理、赋能业务及提供业务支持。对于阿里菜鸟物流来说,海量地址进行标准化和应用在匹配中,都是非常有用的。
2.智能客服:应用非常广泛,不仅应用在销售企业,在政府也有所应用。通过对长篇文档进行机器理解,拆解为Q&A对话。
3.智能司法解决方案:以多模态AI算法和行业知识打造公检法司行业AI产品,让AI技术赋能公检法司行业。
四、决策智能:大数据调查
(一)基本介绍
当数据海量出现后,如何直接让这些数据拥有洞察力,而不需要有人共分析,这是需要攻克的课题。通过数据表征融合,将数据以统一向量表示,根据智能的时序分析,从数据中寻找事件,进行因果推断,找到事件之间建立的联系。
(二)决策智能:产品:
1.智能人员排班:智能构建资源和需求模型,提供资源排班或调度方案,让合适的资源在合适时间用于核实的位置,提升系统效率和降低成本。广泛应用在零售企业、客服排班等。
2.在线学习与决策
算法服务平台起步于业务场景算法实践,尝试对场景需求背后的基本问题进行建模求解。例如为闲鱼、优酷、盒马等业务场景提供首图优化、素材个性化、新品推荐、流量调控等服务
3.“达灵”计算资源优化
综合计算资源管理系统,使用机器学习和运筹优化技术实现更优化的计算资源
五、大数据+算力
AI不仅仅是算法,更多是要结合计算能力和数据的能够进行综合的运用,AI就是算力、算法和数据这三驾马车的驱动。当今的AI发展都是这三种要素应用场景的突破。
六、对于阿里来说AI应用方面
1.智能对话,
2.智能辅助
3.智能决策
4智能管理
七、关键技术
1.全自动对话机器人:ALP在AI感知技术里是比较难的任务,而对话是在ALP中最难的事情,在对话文本中除了拆解还需要理解,因此增加了很大难度。在全自动对话机器人中,我们会拆解很多任务,利用对话系统进行管理上下文规划,根据客户意图分成问题和任务,发布指令。虽然在这方面有很多研究,但这技术需要突破方面仍旧很多,现如今对每个企业来说都是一个巨大挑战。目前智能对话依旧需要依靠人工进行处理。
2.智能辅助决策:在实际工作中,人需要做得决策是更加复杂的,不能依据机器来进行决策,但对于简单但实际需要依赖数据复杂处理方面,如在营销中处理多份工单,可以AI进行智能辅助决策,依据数据进行分析,提高工作效率。同时,由于每次进行智能辅助决策,都在人工最后进行校验,这相当于对模型进行检验,这就有利于模型不断得到修正,提高准确率。
3.基于全局优化的智能调度技术
在涉及很多人任务进行网络决策的时候,比如说前面提到大规模的人员应用到不同技能组织,而且任务比较多,如何实现群体最优就需要运用智能调度技术,对任务预测到人员排班再到运营通过智能调度技术进行全自动化调控。
4.大规模对话和数据的预测平台
通过用户识别和ID识别,在对话前中后进行问题预测,进一步预测客户现有问题和难点,从而实现更好的用户体验。
八、案例:直播小蜜—助力直播间转换
淘宝直播在电商直播算是领头羊,如何利用AI助力直播间发展,将直播打造智能直播间是当今需要研究的。面对几百万的观众,主播无法跟这么多人互动,这时就需要机器来进行互动,回答观众的问题。另外,在直播间需要把视频内容提取出来,这有利于更好地运用于搜索、推荐。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。