当语音图像人脸识别在一起 从云知声说起

2014-04-16 13:44:12来源:西部e网作者:

实现单个的语音、语义、人脸、图像识别并不难,难的是用户有场景需要将所有的识别技术结合在一起。如何实现?首先从云知声说起。

实现单个的语音、语义、人脸、图像识别并不难,难的是用户有场景需要将所有的识别技术结合在一起。如何实现?首先从云知声说起。

4月12日,云知声牵头的“全智能交互联盟”成立,除云知声外,首批进入该联盟的成员还包括语义理解技术公司“哦啦”、图像识别技术公司“亮风台”、人脸识别技术公司“Face++”。

云知声是国内专注语音识别及语言处理技术对移动互联网公司,为易信、乐视超级电视等产品提供智能语音方案。

\
云知声CEO黄伟

从语音入侵移动互联

创立至今不到两年,云知声在语音行业的发展速度像坐上轮喷气飞机,去年10月,云知声还成功获得1亿元A轮融资。不差钱的云知声,迅速达到规模化,并提前完成商业化。

为什么云知声能发展得这么快?

首先,这与我国移动互联网的发展环境有关。随着移动互联网的快速发展,语音正处在一个爆发的零界点。对于智能终端而言,语音不仅是刚需,而且还和摄像头、麦克风一样,是智的能硬件重要入口之一。

云知声的CEO黄伟,把云知声的智能语音服务梳理为三个方向:云、端、芯。云知声对于行业趋势的捕捉是迅速的,同时在技术上进行升级,达到业内比较领先的水平。

语音的盘子有多大?

语音在人机交互方面,占据着越来越重要的地位。从一些科幻大片中,我们已经可以窥一斑而知全豹。

2013年国内语音企业龙头老大科大讯飞营收超12亿,国外语音公司Nuance营收超23亿美元。

据中国智能语音产业联盟发布的《2013中国智能语音产业发展白皮书》称,智能语音已进入快速应用阶段。

通过与各语音厂商的各种调研结果来看,带动相关产业产值100亿元,预计到2017年,将带动相关产业规模增长1000亿元,占全球相关产业规模的比重将由去年的5.6%增至17.1%。

中国智能交互的首个联盟诞生,要做些什么?

A轮融资后,不差钱的云知声都做了什么?

2013年10月,创立一年多都云知声拿到轮1亿元A轮融资,不差钱了。不差钱的云知声,合作伙伴目前已经扩展到了3000多家,领域涵盖了移动应用、智能终端、芯片等多个方向。

此外,云知声单月签约额超过千万,提前完成商业化。并且,在技术上的大量投入,使其不断突破,保持领先地位。

在智能交互中,语音、图像、人脸都是交互方式之一,于是云知声牵头,发起了“全智能交互联盟”。

这也许是此次智能交互联盟成立的一个契机。

当然,全智能交互联盟的成立除了内因驱动,也有外因使然。

不久前,腾讯宣布微信对外上线智能开放平台,向微信服务号和第三方应用开放语音识别技术和图像识别技术;

此前,百度也面向开发者开放了包括语音识别、面部识别等技术的接口。面对BAT的“疯狂收购”,垂直领域的技术公司进行技术聚合、服务升级不失为一个良策。

云知声牵头主导的全智能交互联盟正是在这样的背景下顺应而生。

云知声CEO黄伟表示,这样一个智能交互的联盟,可以将语音、图像、人脸交互方案打包,给硬件厂商和开发者提供一站式交互技术超市,而不是单一的被割裂的解决方案。通过全智能交互联盟提供的打包交互技术,有望加速智能交互行业的发展。

语音、图像、人脸交互,一个都不能少

当语音、语义、图像、人脸识别结合后,科幻片中的智能交互场景,距离成为现实为时不远。

\
《霹雳游侠》里的智能汽车

\
《人工智能》里的拟真机器人

\
《Her》里人和智能操作系统OS1恋爱

甚至还有《爱情公寓》里的能和人聊天的智能冰箱,这些场景都有一个共同点就是智能语音交互。

当然,全智能交互还需要克服如下难点:

全部智能交互的准确率都需要接近100%,否则在产品化时就会很容易出现问题;

语音、人脸、图像识别的应用场景如今仍有限,现实生活中人们所接触到的物理表面远远多于这些电子表面,所以如何把更多的“表面”纳入可交互范畴非常重要。

好在,随着智能可穿戴设备在近两年的发展,未来三五年内很可能会出现全智能交互的新奇案例。

赞助商链接: