百度组建全球最大深度机器学习开源平台 联合微软等

2015-05-21 11:34:55来源:威易网作者:

     5月20日,由搜索引擎公司百度牵头发起的全球最大分布式深度机器学习开源平台(https://dmlc.github.io/)正式面向公众开放。据悉,该平台隶属于名为“深盟”的开源组织,该组织核心开发者来自百度深度学习研究

     5月20日,由搜索引擎公司百度牵头发起的全球最大分布式深度机器学习开源平台(https://dmlc.github.io/)正式面向公众开放。据悉,该平台隶属于名为“深盟”的开源组织,该组织核心开发者来自百度深度学习研究院(IDL),微软亚洲研究院、华盛顿大学、纽约大学、香港科技大学,卡耐基·梅陇大学等知名公司和高校。通过这一开源平台,世界各地的开发者们可以免费获得更优质和更容易使用的分布式机器学习算法源码,从而大幅降低开发和部署分布式机器学习系统及相关应用的门槛。包括今日头条、汽车之家等在内的多家公司已经通过该开放平台受益。
 
  “此次我们推出的深度机器学习开源平台,和其他开源软件一样没有任何使用限制,个人和机构均可以自由使用。而其最大的优势,在于已经达到了工业级应用标准。” 深盟项目负责人之一、百度深度学习研究院李沐介绍称,目前业内流行的分布式平台例如Spark都基于JAVA语言,开发难度虽然较低,但通常在性能上有所缺陷。而此次“深盟”推出的深度机器学习开源平台,其核心则完全采用C++语言,加之所开放的算法经过了多家公司的实践,因此性能非常成熟稳定,已经达到了工业级应用水平,能够满足各种工业界需求。
 
   机器学习是人工智能研究领域中的重要方向,而深度学习则是近年机器学习领域的一个重大突破, 作为目前最接近人脑的智能学习方法,深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等,有着广泛的应用前景,广受业界追捧。在深度学习的研发上,百度有着领先世界的优势。早在2013年,其便组建了百度IDL(深度学习研究院),面向全球延揽一流学术人才,并尝试将深度学习应用于语音识别和图像识别、检索,以及广告CTR预估(Click-Through-Rate Prediction,pCTR)等领域。2014年,百度又将Andrew Ng(吴恩达)招致麾下,吴恩达是斯坦福大学人工智能实验室主任,入选过《时代》杂志年度全球最有影响力100人,是16位科技界的代表之一。截至目前,百度在深度学习上已经取得巨大成功,到目前为止,已经有超过8项深度学习技术在百度产品上线,在用GPU提升计算效率,处理海量训练数据,语音识别,OCR识别,人脸识别,图像搜索等领域,均达到国际领先水平。
 
   “我们推出这个项目最大的愿望,就是希望通过开放和分享百度在分布式深度机器学习及大数据领域的技术经验,将分布式机器学习的门槛降低,使得更多个人和机构能够享受大数据带来的便利。同时也希望联动更多来自工业界和学术界的开发者们,共同推动全球范围内分布式深度机器学习技术的研发及商业化应用,也希望能吸引更多的开发者和项目的加入” 李沐表示。
 
   据了解,截止目前,“深盟”分布式深度机器学习开源平台的已有组件已成功覆盖三类最常用的机器学习算法,包括被广泛用于排序的决策树模型(GBDT),用于点击预测的稀疏线性模型(如Sparse Logistic Regression),以及目前的研究热点深度学习。未来“深盟”将致力于将实现和测试更多常用的机器学习算法,并通过更好的融合当前各类组件,最终将提供更为一致性的用户体验。
 
   据透露,“深盟”目前的重点开发项目被命名为“虫洞”,其将成为所有深盟项目的统一入口。虫洞将自动构建深盟所有项目,为对所有组件提供一致的数据流支持,无论数据是以何种格式存在网络共享磁盘,HDFS,还是Amazon S3, 此外,它还提供统一脚本来编译和运行所有组件,使得用户即可以在方便的本地集群运行任何一个分布式组件,又可以将任务提交到任何一个包括Amazon EC2,Microsfot Azure, Google Compute Engine在内的云计算平台,并提供自动的容灾管理。
 
   业内人士评价指出,凭借百度的强大领导力和在该领域的技术积累,未来“深盟”十分有望成为分布式机器学习领域的国际性标准平台,从而能够让更多个人和机构享受到机器学习、人工智能和大数据带来的技术便利。”