AI challenger 全球 AI 挑战赛

比赛介绍

2017 年 9 月 4 日，“AI challenger 全球 AI 挑战赛”正式开赛，来自世界各地的AI高手，将展开为期三个多月的比拼，获胜团队将分享总额超过 200 万人民币的奖金，并获得顶级 AI 专家的指导。大赛官网（challenger.ai）同步上线了训练数据集以及验证数据集，供参赛选手下载，进行算法设计、模型训练及评估。

“AI Challenger 全球 AI 挑战赛”是由创新工场、搜狗和今日头条三家国内人工智能领域领军企业共同发起的竞赛活动，面向人工智能领域科研人才，致力于打造大型、全面的科研数据集与世界级竞赛平台。

自 8 月 14 日开放报名以来，AI Challenger 平台已经汇聚了来自世界各地的参赛者。来自高校的包括中国清华大学、北京大学、中科院、上海交通大学、复旦大学、中科大、香港科技大学、香港中文大学、台湾大学，美国康奈尔大学、佐治亚理工、纽约大学，英国剑桥大学、帝国理工学院，德国卡尔斯鲁厄大学，法国国立路桥学校，澳洲卧龙岗大学，日本早稻田大学。来自公司机构的包括百度、蚂蚁金服、小米、搜狐、奇虎 360、众安保险、平安科技、同花顺、陌陌、迅雷、中兴通讯、中国移动、中国电信、格灵深瞳、驭势科技、摩拜，微软、通用电气、英特尔、eBay、Micron、法国巴黎银行，还有神秘的公安部院所。参赛者中也不乏曾经在各种大赛上叱咤风云的牛人，比如天池阿里移动推荐算法大赛冠军、滴滴 DI-tech 算法大赛冠军、ImageNet 目标分类任务和定位任务双料冠军、中兴算法精英挑战赛冠军，IBM-滴滴编程马拉松大赛冠军，以及 Kaggle 大赛的众多优胜者。

开放数据集

本次大赛提供了百万量级的计算机视觉数据集、千万量级的机器翻译数据集，包括：超过1000 万条中英文翻译数据、70 万个人体骨骼关键点标注数据、30 万张图片场景标注和语义描述数据。这是国内迄今公开的规模最大的科研数据集，已经在大赛官网（challenger.ai）上线，供参赛选手下载，进行算法设计、模型训练及评估。

（1）人体骨骼关键点数据集

此数据集是目前规模最大，场景、人物动作及身体遮挡情况最复杂的数据集。它使用含有人物的图片，对人体14个骨骼关键点分别作出标注，共有30万张图片，包含了超过100种复杂生活场景内的实际人物动作与姿态，标注人物个数达到70万量级，远超过MSCOCO的10万人、以及MPII的4万人量级。该数据集将挑战现有主流算法的鲁棒性。

基于此数据集的研究成果可以被直接应用于动作分类和识别，动作捕捉，图像和视频内容理解，人机交互，自动驾驶（行人动作和意图识别），安防（异常行为检测），无人零售（消费者行为理解）等领域。

（2）图像中文描述数据集

此数据集是目前规模最大、场景和语言使用最丰富的图片中文描述数据集，共有 30 万张图片，150 万句中文描述，使用了超过 100 种复杂生活场景的含有人物的图片，而且此数据集的语言描述标注更符合中文语言使用习惯。相对于 MSCOCO 和 Flickr8k-CN，在完整描述图片主体事件的基础之上，该数据集创新性的引入了形容词和中文成语，用以修饰图片中的主要人物及背景事件，大大提升了描述语句的丰富度。本数据集的标注量远大于 Flickr8k-CN（8000张图），巨大的数据量和复杂的图片场景将直接挑战现有算法的可用性。

基于此数据集的研究成果可以被直接应用于图像与视频语义理解、图像与视频自动标注、图像与视频内容检索、人工智能辅助教育、机器人视觉、盲人辅助等人工智能相关领域。

（3）英中翻译数据集

此数据集的训练数据量达到 1000 万句对，每一条数据由一句英文和对照的中文构成，是最大规模的口语领域英中比赛数据集。训练数据全部经过译员检查和矫正，句正确率在 97% 以上，英中双语句对对照工整、质量高、噪音低。

基于此数据集的研究成果可以被直接应用于机器翻译，尤其是口语机器翻译、同声传译应用。

开放数据集能给 AI 人才带来什么帮助？

在人工智能领域，数据的质和量是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集，是推动 AI 科研和技术前进的驱动力。未来三年，主办方将投入数千万基金，解决数据集缺失的问题，为人工智能科研提供海量数据及算法竞赛、人才交流平台，辅以强大的学术界和产业界专家指导，全力支持与帮助国内外的高校、研究机构、产业界的研发团队。

竞赛评委暨指导委员会

赛制介绍

本届 AI Challenger 大赛的主赛道竞赛分别是：人体骨骼关键点检测竞赛、图像中文描述竞赛、场景分类竞赛、英中机器文本翻译竞赛、英中机器同声传译竞赛。大赛还在持续推出更丰富的实验赛道、实验数据集，敬请关注大赛官网（challenger.ai）

主赛道

比赛名称	比赛介绍	冠军奖金	截止日期
英中机器同声传译	挑战同声传译中的语料无标点、无断句、口语化、以及夹杂语气词等问题。语言翻译方向为英文到中文	¥400,000	2017/12/03
英中机器文本翻译	用大规模的数据，提升英中文本机器翻译模型的能力。语言翻译方向为英文到中文	¥300,000	2017/12/03
场景分类	寻找一个更鲁棒的场景分类模型，解决图片的角度、尺度、和光照的多样性问题	¥100,000	2017/12/03
人体骨骼关键点检测	挑战复杂生活场景中的人体检测，并预测多种复杂动作下的人体骨骼关键点位置	¥300,000	2017/12/03
图像中文描述	用一句话描述给定图像中的主要信息，挑战中文语境下的图像理解问题。尝试自然语言处理与计算机视觉技术结合的力量	¥300,000	2017/12/03

实验赛道

比赛名称	比赛介绍	冠军奖金	截止日期
虚拟股票趋势预测	通过对大规模历史数据建模，预测虚拟股票未来趋势	¥50,000	2017/12/03

虚拟股票趋势预测，通过对大规模历史数据建模，预测虚拟股票未来趋势，这个实验赛道适合有大数据背景、深度学习的初中级人士参与。

本竞赛数据来源主要以股票及新闻数据为主。竞赛每周一轮。选手通过训练模型，对虚拟股票走势进行预测。每轮结束时统计该轮队伍排名。最终累计每周积分决出最终的大奖。冠军将获得5万元人民币的奖励。同时，每周都会对该轮排名前三的队伍颁发奖金。该实验赛道由创新工场发起、管理和运营，奖励由创新工场提供。

大赛主办方还将努力为条件有限的参赛选手提供免费 GPU 资源的支持，选手可在各赛道相关数据集下载的页面进行申请.

赛程安排

9 月 4 日 10:00，开放训练数据集以及验证数据集。
10 月 31 日 23:59:59，大赛报名截止。
12 月 3 日 23:59:59，各项竞赛的排名将决定最终成绩排名。
12 月中旬，大赛主赛道各项竞赛的最终榜单排名前五的团队将受邀到现场答辩并参加颁奖典礼。

2017年9月4日-2017年9月24日：
- 平台会在9月4日10:00开放训练数据集以及验证数据集，参赛选手可以自行下载数据，在本地进行算法设计、模型训练及评估。
2017年9月25日-2017年12月3日：
- （1）平台会在9月25日10:00开放测试数据集A集，参赛选手可自行下载数据，在本地使用先前训练的模型进行预测，生成预测结果并提交至平台。结果提交后，系统会按照评测指标实时反馈分数，并更新榜单排名。
- （2）每队每周最多可提交2次（不同比赛提交次数会有调整）。
- （3）榜单以所有参赛队伍的历史最优成绩进行排名。当有团队提交新的预测结果之后，榜单将实时更新。最终的成绩排名以12月3日23:59:59的排名为准。
双周赛：
- 从9月25日至11月20日期间，组委会将举办4次双周赛。10月9日将公布第一次双周赛排名前三的队伍，颁发奖金及证书。之后每两周公布一次排名前三的队伍名单，一共颁发四次双周奖。双周赛的排名将以10月8日、10月22日、11月5日、以及11月19日当晚23:59:59的成绩榜单排名为准。
测试数据集B集：
- 最终榜单公布前，公布测试数据集B集，具体开放时间待定。B集开放之后，成绩榜单将采用选手模型在测试数据集的B集上的预测结果表现，作为排名依据。
2017年12月3日：
- 预测结果提交截止。最终的榜单成绩排名以12月3日23:59:59的排名为准。本次榜单决定场景分类竞赛年度的获奖队伍，其他竞赛将进入到下一轮的答辩环节。
2017年12月16日(暂定）：
- （1）人体骨骼关键点检测、图像中文描述、英中机器文本翻译、英中机器同声传译四个竞赛系统最后一次榜单成绩排名前五的队伍将在当天受邀来到现场进行答辩，特殊情况可以远程答辩，具体安排另行通知。
- （2）参赛队伍应提前准备答辩材料，包括PPT、算法代码等。
- （3）榜单成绩和答辩成绩的加权总成绩将决出这四个竞赛最终的大奖。同时，五个竞赛的冠亚季军及获得优胜奖的队伍将受邀来到现场参加颁奖典礼。

评分规则

本次大赛将以最终榜单排名结合答辩表现，加权计算总成绩，决出最终的大奖。

竞赛的测试数据将分为A、B集两部分。A集部分将在9月25日开放下载，在B集部分开放之前，榜单将采用选手模型在测试数据集的A集上的预测结果，作为排名依据。

B集部分预计在11月下旬开放，具体开放时间待定。B集开放之后，榜单将采用选手模型在测试数据集的B集上的预测结果，作为排名依据。最终的榜单成绩排名以12月3日23:59:59的排名为准。

报名方式

报名时间：即日起至10月31日。竞赛报名以及组队队员变更截止时间为10月31日23:59:59。
参赛队伍可1-3人组队参赛，确保报名信息准确有效。每名选手在大赛平台只能拥有一个账号，否则会被取消参赛资格及激励。
实名认证：为保证大赛公平性，所有选手必须完成个人信息实名认证。认证过程在个人中心的实名认证区域完成。
报名方式：登入challenger.ai官网，完成个人信息注册，即可报名参赛。
参赛队员必须遵守并签署《竞赛选手报名协议》。

组队规则：

参赛队伍可1-3人组队参赛，竞赛报名以及组队队员变更截止时间为10月31日23:59:59。在10月31日前，参赛选手可自行选择退出原队伍或加入新队伍，但队员原先成绩不带入新加入队伍，以新加入队伍的成绩为准。

参赛对象：

大赛面向全社会开放，个人、高等院校、科研单位、互联网企业、创客团队等人员均可报名参赛。创新工场、搜狗、今日头条现任全职及兼职员工，数据集建立及维护过程中能接触到数据的人员不得参赛。

学习资源

优达学城：机器学习、深度学习、人工智能导论、人工智能（进阶）、基于知识的人工智能：认知系统、强化学习、计算机视觉导论
计算机视觉：斯坦福李飞飞：计算机视觉与卷积神经网络、UCF计算机视觉、Virginia Tech深度学习感知
自然语言处理：Coursera自然语言处理导论、基于Python的文本挖掘应用、文本挖掘与分析，Stanford基于深度学习的自然语言处理
机器学习：Coursera Geoffrey Hinton：机器学习神经网络，NetEase吴恩达：机器学习

小提示：比赛组队、参加每周AI技术大神分享会，请加大赛微信小助手 aiczhuhou