ML大牛吴恩达提出著名二八定律:80%数据+20%模型=更好的AI

faddiddn

国际最权威的ML学者之一吴恩达(Andrew Ng)在他45岁生日当天发推文称 ,“大家为自己送上最好的礼物就是,观看这个视频观看并提出自己的见解。让大家的工作从以模型为中心向以数据为中心的AI转变。”

在这个视频中,吴恩达提出了著名二八定律:80%的数据+20%的模型=更好的AI。

吴恩达强调,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

image.png

吴恩达提出了著名的二八定律

吴恩达的观点强调了数据对人工智能的重要性。机器智能的本质来自于人类赋予的数据,数据规模越大机器越智能。可以说,数据是AI产业的命脉。

作为全球领先的人工智能数据服务提供商,数据堂也认为,随着人工智能商业化进程的加速,人工智能技术在各行各业的应用和落地,对数据的种类、质量和场景匹配程度的要求也越来越高,拥有数据将是AI企业的核心竞争力之一。

数据堂紧跟人工智能数据需求趋势,在多年的实战经验中打造了公司的三大产品矩阵:基础数据集、数据定制服务、私有化数据标注平台,真正为客户实现数据+平台+智能化一站式数据解决方案。

基础数据集

数据堂拥有一定规模的数据资产,语音数据产品累计已达41,000小时,图像视频数据产品共3,500万余张,覆盖了50万余人。这些数据产品能够有效提高数据服务的时效性并降低客户的数据使用成本,提高数据的利用效率。

image.png

数据堂图像数据样例,已获得被采集人授权

在数据采集方式上,基于对AI数据采集标准和加工处理技术的掌握和了解,数据堂在利用旗下“数加加”众包平台进行数据采集和标注的同时,也通过外包商实现一部分采集和标注任务。通过外包与众包有效结合的方式,提供满足各类需求的AI数据服务。

数据定制服务

针对企业的个性化数据需求,数据堂通过数加加云端数据工厂提供高质量的数据采集和数据标注服务。

image.png

数据堂定制数据样例,已获得被采集人授权

基于50多个国家和地区的采集资源和来自全球1000家以上合作伙伴,数据堂支持多种场景多种类型的数据采集和标注需求,数据定制内容支持图像、文本、语音、视频等全维度数据。

私有化数据标注平台

为适用企业人工智能数据多样化处理需求,数据堂研发并推出了数加加Pro私有化解决方案产品。

数加加标注平台拥有丰富的标注工具、灵活的可配置模板、开放的API接口和有效的数据集管理,支持智能标注和多租户管理,打通了企业数据平台、数据私有化加工、数据安全交付环节,覆盖数据标注服务全生命周期,为企业客户提供数据标注服务整体解决方案。

为保障公司为客户提供安全合规的数据服务,同时保障数据堂自身的安全合规,数据堂根据世界范围内主要国家有关数据的法律政策,制定了本公司数据业务的安全合规体系。

依托自身的数据资源、技术优势及丰富的数据处理经验,数据堂全国多地建设了专注于人工智能数据处理产业基地,并打造了一支专业的定制化采集和高质量的标注队伍,逐步形成一套科学、专业的集人员管理、质量控制和数据安全保障机制。

image.png

数据堂数据基地

迄今为止,数据堂已经拥有了1000家以上合作伙伴和150万全球众客。在长期的数据服务实践中,数据堂始终坚持数据助力AI、科技服务社会的理念,不断推陈出新、与时俱进,坚持用最好的数据推动更好的人工智能。

正如吴恩达所说:“如果我们80%的工作是数据准备,那么确保数据质量是机器学习团队的重要工作。”对于AI企业来说,如何转换思维方式创造出一种更系统的方式来改进数据,这才是更重要的。

阅读 146

1 声望
0 粉丝
0 条评论
1 声望
0 粉丝
文章目录
宣传栏