Span抽取和元学习能碰撞出怎样的新火花,小样本实体识别来告诉你!

2022-12-12
阅读 3 分钟
近日,阿里云机器学习平台PAI与华东师范大学高明教授团队、达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表基于Span和元学习的小样本实体识别算法SpanProto。这是一种面向命名实体识别的小样本学习算法,采用两阶段的训练方法,检测文本中最有可能是命名实体的Span,并且准确判断其实体类型,在仅...

算法 KECP 被顶会 EMNLP 收录,极少训练数据就能实现机器阅读理解

2022-12-09
阅读 4 分钟
近日,阿里云机器学习平台PAI与华东师范大学高明教授团队合作在自然语言处理顶级会议EMNLP2022上发表基于Prompt-Tuning的小样本机器阅读理解算法KECP(Knowledge Enhanced Contrastive Prompt-tuning)。KECP是一种面向机器阅读理解的小样本学习算法,采用Prompt-Tuning作为基础学习范式,在仅需要标注极少训练数据的情...

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

2022-06-22
阅读 2 分钟
简介: 介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。作者:李锦桂 阿里云开源大数据平台开发工程师

MAE 自监督算法介绍和基于 EasyCV 的复现

2022-05-20
阅读 8 分钟
简介:自监督学习(Self-Supervised Learning)能利用大量无标注的数据进行表征学习,然后在特定下游任务上对参数进行微调。通过这样的方式,能够在较少有标注数据上取得优于有监督学习方法的精度。近年来,自监督学习受到了越来越多的关注,如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在C...
封面图

多任务学习模型之ESMM介绍与实现

2022-01-04
阅读 7 分钟
简介:本文介绍的是阿里巴巴团队发表在 SIGIR’2018 的论文《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》。文章基于 Multi-Task Learning (MTL) 的思路,提出一种名为ESMM的CVR预估模型,有效解决了真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问...
封面图

深度解析开源推荐算法框架EasyRec的核心概念和优势

2021-12-27
阅读 5 分钟
随着移动app的普及,个性化推荐和广告成为很多app不可或缺的一部分。他们在改善用户体验和提升app的收益方面带来了巨大的提升。深度学习在搜广推领域的应用也已经非常深入,并且给各种场景的效果带来了巨大的提升。针对推荐流程的各个阶段,业界已经有很多的模型,这些模型大部分也有开源的实现,但是这些实现通常散落在...
封面图

工业视觉智能实战经验之IVI算法框架2.0

2021-10-18
阅读 9 分钟
简介: 工业视觉智能团队在交付了多个工业视觉智能质检项目后,发现了工业视觉智能的共性问题和解法,打造了工业视觉智能平台,通过平台的方式积累和提升工业视觉的通用能力。在平台建设上最核心的能力是算法能力。算法能力包括不断增强的单点算法能力和不断扩充的新算法能力。那么如何将算法能力输出到平台呢?答案是算...
封面图

数据是如何被保护的?高质量存储告诉你

2021-09-10
阅读 1 分钟
简介: 作为关键信息基础设施运营者,阿里云提供了全方位的数据安全保护方案。今天,我们就从数据存储的角度来聊一聊数据是如何被保护的。原文链接本文为阿里云原创内容,未经允许不得转载。
封面图

智能搜索推荐一体化营收增长解决方案

2021-09-03
阅读 1 分钟
简介: 图数据库GDB提供智能搜索推荐一站式服务,基于达摩院的智能搜索推荐算法和知识图谱技术,助力企业快速过渡冷启动过程,面向业务场景定制化方案,以提升核心业务指标,实现业务营收增长。
封面图

微博机器学习平台云上最佳实践

2020-12-09
阅读 3 分钟
微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

Flink on Zeppelin (4) - 机器学习篇

2020-03-20
阅读 3 分钟
Flink 在机器学习这个领域发力较晚,社区版没有一个完整的机器学习算法库可以用,Alink[1]是目前 Flink 生态圈相对比较完整的机器学习算法库,Alink 也在往 Flink 社区贡献的路上。今天我主要讲的就是如何在 Zeppelin 里使用 Alink。

机器学习在高德用户反馈信息处理中的实践

2020-01-08
阅读 5 分钟
作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产品的,是高德地图不断进步和持续提升服务质量的重要手段。

使用函数计算三步实现深度学习 AI 推理在线服务

2019-12-19
阅读 6 分钟
目前深度学习应用广发, 其中 AI 推理的在线服务是其中一个重要的可落地的应用场景。本文将为大家介绍使用函数计算部署深度学习 AI 推理的最佳实践,  其中包括使用 FUN 工具一键部署安装第三方依赖、一键部署、本地调试以及压测评估, 全方位展现函数计算的开发敏捷特性、自动弹性伸缩能力、免运维和完善的监控设施。

开源 | 全球首个批流一体机器学习平台 Alink

2019-12-06
阅读 7 分钟
阿里妹导读:Flink 在机器学习领域的进展一直是众多开发者关注的焦点,今年 Flink 迎来了一个小里程碑:机器学习算法平台 Alink 开源,这也宣告了 Flink 正式切入 AI 领域。

医疗数据典型特征及架构发展方向研究

2019-12-04
阅读 3 分钟
医疗健康产业目前呈高速发展状态,处在互联网对医疗行业赋能的关键阶段,由于医疗行业数据的隐私性较强,通过传统方式很难获取公开的医疗健康数据进行研究,根据阿里云天池比赛赛题设置研究及提供的脱敏数据集着手进行分析是比较理想的手段。本文的目的在于对医院的信息系统流程进行思考,结合公开数据集对于医疗健康数...

双 11 模块 79.34% 的代码是怎样智能生成的?

2019-11-26
阅读 8 分钟
导读:作为今年阿里经济体前端委员会的四大技术方向之一,前端智能化方向一被提及,就不免有人好奇:前端结合 AI 能做些什么,怎么做,未来会不会对前端产生很大的冲击等等。本篇文章将围绕这些问题,以「设计稿自动生成代码」场景为例,从背景分析、竞品分析、问题拆解、技术方案等几个角度切入,细述相关思考及过程实践。

2684亿销售额背后的阿里AI技术

2019-11-25
阅读 5 分钟
大家好,我是林伟,我今天演讲的主题是《AI 突破无限可能—5 亿消费者的云上双 11》。我本人是做系统出身的,但在最近的一些会议上发现,越来越多做系统出身的人开始研究 AI。在 90 年代末的那波热潮里,我有幸在学校的人工智能实验室呆过,那时还在纠结模型效果,最后发现是自己想多了,那时做出来的东西还远远达不到可...

闲鱼推荐,让智能计算从云走向端

2019-11-14
阅读 3 分钟
闲鱼推荐,知道你的喜欢。 作者: 储睿(刘思佳)、锦逸(陈祎平)、明栋(欧明栋)、资旭(杨子旭)。 关键词: 智能推荐、特征工程、特征处理。 术语解释: 机器学习(Machine Learning):是关于在计算机上从数据中产生“模型”(model)的算法; 数据集(Data Set):一组记录的集合; 模型(Model):泛指从数据中学得...

测试工程师不懂AI,还有未来吗?

2019-11-08
阅读 7 分钟
阿里妹导读:近几年人工智能、机器学习等词漫天遍地,似乎有一种无AI,无研发,无AI,无测试的感觉。有人说:不带上“智能”二字,都不好意思说自己是创新。我们先暂且不评论对错,只探讨这背后值得我们思考的问题。

提效降本:蚂蚁金服如何用融合计算改造在线机器学习

2019-11-04
阅读 4 分钟
去年春节期间支付宝推出的集五福的活动可谓风靡一时,每张福卡背面都有刮刮卡,里面有来自蚂蚁金服、阿里巴巴以及合作伙伴的上百种权益。集五福的活动集中在春节前的几天,具有很强的时效性。所以如何实现权益和投放人群的自动匹配,解决系统的冷启动问题,优化转化率和提升用户体验,就成了一个在线学习的优化问题。

提效降本:蚂蚁金服如何用融合计算改造在线机器学习

2019-11-04
阅读 4 分钟
去年春节期间支付宝推出的集五福的活动可谓风靡一时,每张福卡背面都有刮刮卡,里面有来自蚂蚁金服、阿里巴巴以及合作伙伴的上百种权益。集五福的活动集中在春节前的几天,具有很强的时效性。所以如何实现权益和投放人群的自动匹配,解决系统的冷启动问题,优化转化率和提升用户体验,就成了一个在线学习的优化问题。

哪些技术好书值得一读再读?阿里大牛列了一份经典书单

2019-11-04
阅读 4 分钟
喜爱读书,就等于把生活中寂寞无聊的时光换成巨大的享受时刻。有了书,各个领域的智慧,几乎触手可及。我们能有幸站在前辈、巨人的肩膀上,看更远的风景。这些经典的技术好书,由阿里九位技术大牛为你倾情推荐,与你一起共同成长、探索未来。

深度 | 打败围棋冠军后,机器智能下一步能战胜黑客吗?

2019-10-30
阅读 10 分钟
阿里妹导读:从深蓝战胜象棋冠军到AlphaGo战胜围棋冠军,每一次机器智能在特定领域战胜人类,都会引发整个社会的广泛关注。洞察了棋类博弈真相的机器智能,接下来能洞察网络安全的真相并且在黑客博弈中战胜人类吗?在机器智能炙手可热的今天,或许我们该静下心来,去理解机器智能的本质、网络安全的困境以及未来二者结合...

基于融合计算?蚂蚁金服的在线机器学习是如何做的

2019-09-19
阅读 1 分钟
金融领域越来越多的活动场景,如双十一、双十二、财富日、新春大促,具有活动持续时间短强度高的特点,解决场景中的计算冷启动问题,优化系统效率和用户体验的需求越来越多。在生产环境的应用中,还需要满足高吞吐和端到端强数据一致性的需求,解决高维稀疏特征的大模型的训练、更新和服务问题。

阿里99大促 | 模型识别背后的样本生成

2019-09-18
阅读 4 分钟
淘宝大促有近百个模块、上千个页面,模块间具有相似性,并且模块内部具备多种状态,如果想要准确识别每个模块类型,单模块的样本数量至少要达到万级,而人工标注成本高、效率低下、数据量少,纯靠人力是无法满足模型诉求的。基于此,今天,我来介绍下,模型识别背后的大批量数据样本生成的技术方案。

在SLS中快速实现异常巡检

2019-09-02
阅读 7 分钟
一、相关算法研究 1.1 常见的开源算法 Yahoo:EGADS FaceBook:Prophet Baidu:Opprentice Twitter:Anomaly Detection Redhat:hawkular Ali+Tsinghua:Donut Tencent:Metis Numenta:HTM CMU:SPIRIT Microsoft:YADING Linkedin:SAX改进版本 Netflix:Argos NEC:CloudSeer NEC+Ant:LogLens MoogSoft:一家创业公...

KDD 2019论文解读:多分类下的模型可解释性

2019-08-28
阅读 3 分钟
日前,由阿里巴巴研究型实习生张雪舟、蚂蚁金服高级算法专家娄寅撰写的论文《Axiomatic Interpretability for Multiclass Additive Models》入选全球数据挖掘顶级会议KDD 2019,本文为该论文的详细解读。论文地址:[链接]

AI和机器学习如何改善用户体验?

2019-08-12
阅读 2 分钟
人工智能(AI)和机器学习(ML)可以做些什么来改善客户体验?自从网上购物开始以来,AI和ML已经密切参与整个网上购物流程。如果没有获得购物建议,你可能无法享受到淘宝或任何其他购物网站的优质服务,这些建议通常是根据供应商对你的特征的理解进行个性化匹配,其中包括你的购买历史记录,浏览历史记录以及更多内容。...

机器学习工程师第一年的12点体会

2019-08-12
阅读 4 分钟
机器学习和数据科学都是广义上的术语,它们涉及超级多的领域以及知识,一位数据科学家所做的事情可能与另一位有很大的不同,机器学习工程师也是如此。通常使用过去(数据)来理解或预测(构建模型)未来。为了将上面刚刚提到的要点融入上下文中,我必须要解释我的角色是什么。曾经我呆在一个小机器学习咨询团队。我们做...

如何在视频里任意抠图?阿里工程师做到了!

2019-08-08
阅读 5 分钟
阿里妹导读:现在的我们在手机上花费了越来越多的时间,其中,视频又格外地吸引我们的注意力。有很多好玩的视频,需要把前景物体从视频中分割出来,这需要花费创作者99%以上的时间。今天,阿里资深算法专家任海兵将告诉:阿里巴巴关于视频物体分割算法的三个方向与最新应用,希望对喜欢视频创作的你有所帮助。