AI Challenger 全球AI挑战赛今日宣布 创新工场、搜狗、今日头条联合发起

2017-08-14 15:36:48来源:威易网作者:王玉

创新工场、搜狗和今日头条联合宣布三方携手发起 “AI Challenger全球AI挑战赛”。 本次竞赛三方联合旨在打造中国最大的科研数据集与世界级AI竞赛平台,推动中国人工智能领域科研创新。

8月14日,创新工场、搜狗和今日头条联合宣布三方携手发起 “AI Challenger全球AI挑战赛”。 本次竞赛三方联合旨在打造中国最大的科研数据集与世界级AI竞赛平台,推动中国人工智能领域科研创新。据悉,大赛第一年启动将开放超过1000万条中英文翻译数据、70万个人体动作分析标注数据、30万张图片场景标注和语义描述数据,是国内迄今公开的规模最大的科研数据集。基于此次开放的数据集,AI Challenger全球挑战赛面向全球AI科研人才广发英雄帖,致力于促进人工智能行业向更为开放、融合以及国际化的方向发展。

在人工智能领域,数据的质和量是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。此次创新工场、搜狗、今日头条三方联手,在发布会上共同宣布 "AI Challenger 全球AI挑战赛" 的社会责任宣言:“数据、算法、计算能力是人工智能的三大基石,其中,数据更是人工智能科研的最宝贵资产。没有足够好的数据,就无法取得世界顶级的科研成果。在此方面,学术界和创业团队所能获得的数据资源通常远少于产业界中的顶级企业。因此,将高质量的数据集建设与科学研究、技术产品研发、人才培养有效结合,对人工智能发展具有重大意义,也是身为产业先驱应尽的一份社会责任。”

\

创新工场,搜狗与今日头条是国内最专注于人工智能领域的三家公司,创新工场作为业内最早在人工智能领域布局的投资机构之一,自2016年下旬成立人工智能工程院,积极推动AI的研究与技术朝向产业实践转化。搜狗是最先将人工智能技术应用落地的互联网公司,语音、图像识别,自然语言理解,机器翻译等技术均已应用于搜狗相关产品当中,包括搜狗搜索,输入法,机器同传等产品,在产业实践中积累了大量语音、文本、图像、视频等数据集,同时沉淀了深厚的计算机视觉、自然语言理解、数据挖掘等方面的技术能量。今日头条同样是最早一批将人工智能技术应用于产品的公司,也是把算法、工程、产品、运营在人工智能应用层面结合得最好的一家公司,在产业实践中积累了大量文本、图像、视频等数据集,并沉淀了深厚的计算机视觉、自然语言理解、数据挖掘等方面的技术能量。AI Challenger全球AI挑战赛的诞生,也是三方拿出实际行动推动人工智能行业发展一次意义重大的集体宣誓。

\

对于发起本次合作,创新工场董事长暨CEO、创新工场人工智能工程院院长李开复表示:“在30多年前自己作为AI科研人员的时代,能接触到真实世界的海量数据是个遥不可及的梦想。如今,伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备的环境下,有了AI Challenger这样的开放数据集和竞赛平台对于AI科研与开发人员是个难得的契机。AI Challenger致力于解决数据集缺失的问题,为人工智能科研免费提供海量数据,辅以强大的学术界和产业界专家指导,全力支持国内外的高校、研究机构、产业界科研人才一起来挑战人工智能的未来可能性。”

\

搜狗CEO王小川表示:“人工智能本质是建立在大数据和机器学习的基础之上。目前,搜狗以语言为核心的人工智能技术,已经通过问答、语音和翻译等形态应用于搜狗搜索和输入法等诸多产品中,并积累的大量的用户与数据规模。其中搜狗的语音输入日频次已达2.6亿次;搜狗的实时机器翻译技术也在包括乌镇世界互联网大会等数百场会议上进行了落地应用。我们希望能够利用搜狗的优质数据和应用场景助力AI Challenger全球AI挑战赛,让全球科研工作者取得更大的成就与突破,一起推动人工智能行业更快、更好地发展。”

\

今日头条顾问、技术战略研究院院长张宏江表示:“依托大数据和人工智能技术,今日头条希望实现更高效的信息流动。身处人工智能行业,我们深知,人才和数据是整个行业的未来。这次头条与搜狗、创新工场联合举办AI Challenger挑战赛的初衷,就是希望通过开放数据,吸引更多优秀人才参与到算法模型的开发、设计中来。比赛结束后,所有数据集会向社会全面开放,我们希望尽一些微薄的力量,为学术界、学术人才提供帮助,加强产学研结合,共同推动中国人工智能行业的发展。”

此次三方联合开放的AI Challenger数据集涵盖多个领域,包括最大规模的人体骨骼关键点数据集(用于无人驾驶、安防、体感游戏等场景)、最大规模的图像中文描述数据集(用于图像和视频内容理解、图像标题自动生成等各类应用)、最大规模的口语领域英中翻译数据集(用于同声传译等自然语言处理的各类应用)等。2017年竞赛将区分为五个竞赛任务供参赛者组队报名,设有共计200万元人民币的奖金池。自9月5日起开放参赛队伍线上进行数据集下载,三个月竞赛持续直到12月。参赛的优秀选手还可获得进入三家主办方工作、实习或获得投资的机会,并有机会在国际顶级学术会议上分享获奖心得,得到如上海科技大学教授马毅、旷视科技首席科学家孙剑、前Google研究院高级管理科学家林德康等十余位人工智能领域顶级专家评委的指导和评价。未来,“AI Challenger·全球AI挑战赛”将持续投入,建设和发布更大规模的AI前沿领域高质量数据集,扩大涵盖自动驾驶、智慧医疗、智慧金融、机器人等行业应用中的核心AI需求。

上月,举办了八届的ImageNet挑战赛由创始人之一李飞飞博士正式宣布退出历史舞台。国际上,ImageNet挑战赛曾是每年企业和研究者都极为看重的活动。另一机器学习竞赛平台Kaggle着眼于真实数据和真实问题的解决方案,同样吸引了全球将近百万数据科学家和研究者进行挑战和探索其多元化的公开数据集。创新工场、搜狗、今日头条三方计划在未来三年间投入数千万规模的资金,不断完善平台的建设、扩大数据集的规模,期许AI Challenger在三年内打造来自中国的世界级AI开放数据和竞赛平台,成为推进全球人工智能研究和产业前进的新引擎。

更多AI Challenger详情与赛事说明参见官网:challenger.ai

2017首届“AI Challenger全球AI挑战赛”赛事说明

一、赛程安排

2017年9月4日-2017年9月24日:

平台会在9月4日10:00开放训练数据集以及验证数据集,参赛选手可以自行下载数据,在本地进行算法设计、模型训练及评估。

2017年9月25日-2017年12月3日:

(1)平台会在9月25日10:00开放测试数据集A集,参赛选手可自行下载数据,在本地使用先前训练的模型进行预测,生成预测结果并提交至平台。结果提交后,系统会按照评测指标实时反馈分数,并更新榜单排名。

(2)每队每周最多可提交2次(不同比赛提交次数会有调整)。

(3) 榜单以所有参赛队伍的历史最优成绩进行排名。当有团队提交新的预测结果之后,榜单将实时更新。最终的成绩排名以12月3日23:59:59的排名为准。

双周赛:

从9月25日至11月20日期间,组委会将举办4次双周赛。10月9日将公布第一次双周赛排名前三的队伍,颁发奖金及证书。之后每两周公布一次排名前三的队伍名单,一共颁发四次双周奖。双周赛的排名将以10月8日、10月22日、11月5日、以及11月19日当晚23:59:59的成绩榜单排名为准。

测试数据集B集:

最终榜单公布前,公布测试数据集B集,具体开放时间待定。B集开放之后,成绩榜单将采用选手模型在测试数据集的B集上的预测结果表现,作为排名依据。

2017年12月3日:

预测结果提交截止。最终的榜单成绩排名以12月3日23:59:59的排名为准。本次榜单决定场景分类竞赛年度的获奖队伍,其他竞赛将进入到下一轮的答辩环节。

2017年12月16日(暂定):

(1)人体骨骼关键点检测、图像中文描述、英中机器文本翻译、英中机器同声传译四个竞赛系统最后一次榜单成绩排名前五的队伍将在当天受邀来到现场进行答辩,特殊情况可以远程答辩,具体安排另行通知。

(2)参赛队伍应提前准备答辩材料,包括PPT、算法代码等。

(3)榜单成绩和答辩成绩的加权总成绩将决出这四个竞赛最终的大奖。同时,五个竞赛的冠亚季军及获得优胜奖的队伍将受邀来到现场参加颁奖典礼。

评分规则

本次大赛将以最终榜单排名结合答辩表现,加权计算总成绩,决出最终的大奖。

竞赛的测试数据将分为A、B集两部分。A集部分将在9月25日开放下载,在B集部分开放之前,榜单将采用选手模型在测试数据集的A集上的预测结果,作为排名依据。

B集部分预计在11月下旬开放,具体开放时间待定。B集开放之后,榜单将采用选手模型在测试数据集的B集上的预测结果,作为排名依据。最终的榜单成绩排名以12月3日23:59:59的排名为准。

报名方式

  • (1) 报名时间:即日起至10月31日。竞赛报名以及组队队员变更截止时间为10月31日23:59:59。
  • (2) 参赛队伍可1-3人组队参赛,确保报名信息准确有效。每名选手在大赛平台只能拥有一个账号,否则会被取消参赛资格及激励。
  • (3) 实名认证:为保证大赛公平性,所有选手必须完成个人信息实名认证。认证过程在个人中心的实名认证区域完成。
  • (4) 报名方式:登入challenger.ai官网,完成个人信息注册,即可报名参赛。
  • (5) 参赛队员必须遵守并签署《竞赛选手报名协议》。

组队规则

参赛队伍可1-3人组队参赛,竞赛报名以及组队队员变更截止时间为10月31日23:59:59。在10月31日前,参赛选手可自行选择退出原队伍或加入新队伍,但队员原先成绩不带入新加入队伍,以新加入队伍的成绩为准。

二、参赛对象

大赛面向全社会开放,个人、高等院校、科研单位、互联网企业、创客团队等人员均可报名参赛。创新工场、搜狗、今日头条现任全职及兼职员工,数据集建立及维护过程中能接触到数据的人员不得参赛。

三、奖金池设置

总奖金池超过200万元人民币,具体分配比例见各竞赛详细说明。

四、各竞赛及数据集详细说明

(一)计算机视觉赛道

1、人体骨骼关键点检测竞赛

赛题介绍

人体骨骼关节点对于描述人体姿态、预测人体行为至关重要,是诸多计算机视觉任务和人工智能应用的基础。本次竞赛邀请参赛者设计算法与模型,对自然图像中可见的人体骨骼关节点进行检测。

组委会将通过计算参赛者提交的检测结果与真实标注之间的相似性(OKS),并结合答辩表现,综合评估参赛者的算法模型。

本次竞赛的研究成果可以被直接应用于动作分类和识别,动作捕捉,图像和视频内容理解,人机交互,自动驾驶(行人动作和意图识别),安防(异常行为检测),无人零售(消费者行为理解)等领域。

数据集特色

作为人物动作理解的基础数据集,此次发布的人体骨骼关键点数据集是目前规模最大,场景、人物动作及身体遮挡情况最复杂的数据集。此数据集标注了共30万张图片,包含了超过100种复杂生活场景内的实际人物动作与姿态,标注人物个数达到70万量级,远超过MSCOCO的10万人,以及MPII的4万人量级。该数据集将挑战现有主流算法的鲁棒性。

奖励

  • 冠军队伍将获得30万元人民币的奖金
  • 亚军队伍将获得3万元人民币的奖金
  • 季军队伍将获得1.5万元人民币的奖金

另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。

2、图像中文描述竞赛

赛题介绍

图像中文描述问题融合了计算机视觉与自然语言处理两个方向,是用人工智能算法解决多模式、跨领域问题的典型代表。参赛者需要对给定的每一张测试图片输出一句话的描述。描述句子要求符合自然语言习惯,点明图像中的重要信息,涵盖主要人物、场景、动作等内容。此次发布的图像描述数据集以中文描述语句为主,与同类科研任务常见的英文数据集相比,中文描述通常在句法、词法上灵活度较大,算法实现的挑战也较大。

组委会将通过客观指标(BLEU, METEOR, ROUGE-L和CIDEr)并结合答辩表现,综合评估参赛者的算法模型。
本次竞赛的研究成果可以被直接应用于图像与视频语义理解、图像与视频自动标注、图像与视频内容检索、人工智能辅助教育、机器人视觉、盲人辅助等人工智能相关领域。

数据集特色

图像中文描述数据集,是计算机视觉与自然语言处理两个学科的交叉结晶。该数据集是目前规模最大、场景和语言使用最丰富的图片中文描述数据集,使用了超过100种复杂生活场景的含有人物的图片,其场景复杂度、人物动作复杂度、身体遮挡情况都高于现有的其他数据集;而且,此数据集的语言描述标注更符合中文语言使用习惯。

相对于MSCOCO和Flickr8k-CN,在完整描述图片主体事件的基础之上,该数据集创新性的引入了形容词和中文成语,用以修饰图片中的主要人物及背景事件,大大提升了描述语句的丰富度。同时,本数据集的30万图片标注量将远远大于Flickr8k-CN(8000张图)。巨大的数据量和复杂的图片场景将直接挑战现有算法的可用性。

奖励

冠军队伍将获得30万元人民币的奖金
亚军队伍将获得3万元人民币的奖金
季军队伍将获得1.5万元人民币的奖金

另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。

3、场景分类竞赛

赛题介绍

本次场景分类竞赛从400万张互联网图片上精选出10万张图片,分属于80个日常场景类别。每个场景类别包含大约1000张图片。要求参赛选手根据图片场景数据集建立算法,预测每张图片所属的场景类别,组委会将通过计算参赛者提交预测值和场景真实值之间的误差确定预测准确率,评估所提交的预测算法。

奖励

  • 冠军队伍将获得10万元人民币的奖金
  • 亚军队伍将获得1万元人民币的奖金
  • 季军队伍将获得0.5万元人民币的奖金

另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。

(二)机器翻译赛道

数据集特色

本次公开的机器翻译的训练数据为英中方向的高质量、大规模的口语领域的数据。训练数据全部经过译员检查和矫正,句正确率在97%以上,英中双语句对对照工整、质量高、噪音低。现有中英机器翻译评测比赛采用有效数据从30万(例如,The International Workshop on Spoken Language Translation)到900万(例如,Chinese Workshop on Machine Translation)不等。而此次采用的训练数据量达到1000万句对,是最大规模的口语领域英中比赛数据集。训练数据领域性强,面向口语领域。

1、 英中机器文本翻译竞赛

赛题介绍

英中机器翻译竞赛的目标是评测各家英中文本机器翻译的能力。本次文本机器翻译语言方向为英文到中文。参赛队伍需要根据评测方提供的数据,训练机器翻译系统,并且自由地选择机器翻译技术。例如,基于规则的翻译技术、基于实例的翻译技术、统计机器翻译及神经网络机器翻译技术等。

本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

本次竞赛的研究成果可以被直接应用于机器翻译尤其是口语机器翻译等领域。

奖励

  • 冠军队伍将获得30万元人民币的奖金
  • 亚军队伍将获得3万元人民币的奖金
  • 季军队伍将获得1.5万元人民币的奖金

另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。

2、 英中机器同声传译竞赛

赛题介绍

本次英中机器竞赛主要任务为集中优化语音识别后处理和机器翻译模块,解决机器同声传译中的技术问题。语言翻译方向为英文到中文。
相对于传统的机器文本翻译系统,机器同声传译的输入文本,暨语音识别模块的输出信息具有无标点、无断句、文本口语化以及夹杂语气词等特点。这一系列特点将为基于书面风格的传统翻译系统带来极大干扰和挑战,因此选手首先需要设计多种策略,制作语音识别后处理模块,将语音识别后的文本,处理为可用于翻译的文本。随后,调用自己训练的机器翻译系统,将识别后处理的文本翻译成目标语言。评测方将提供数据用以训练机器翻译系统,选手可以自由地选择机器翻译技术。

本次竞赛将利用机器翻译的指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标,同时结合答辩表现,综合评估参赛者的算法模型。

本次竞赛的研究成果可以被直接应用于机器翻译特别是同声传译类应用。

奖励

  • 冠军队伍将获得40万元人民币的奖金
  • 亚军队伍将获得4万元人民币的奖金
  • 季军队伍将获得2万元人民币的奖金

另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。