热闹了一年的智能音箱,为什么说只是过渡?

2017-12-25 15:42:59来源:威易网作者:

在深圳,至少有 200 家工厂在做智能音箱,但是从全球,你能找到既提供软件、硬件整合解决方案还设有专项产品体验工程师的方案公司,一只手就能数得出来。

行业热,行业洗牌,行业发展,下一个十年的人机交互会怎样进行?

「在深圳,至少有 200 家工厂在做智能音箱,但是从全球,你能找到既提供软件、硬件整合解决方案还设有专项产品体验工程师的方案公司,一只手就能数得出来。」

在音频行业摸爬滚打 14 年的宋少鹏看来,2017 年国内智能音箱行业的百箱大战,几乎和功能机过渡到智能机时如出一辙。这场硝烟中,他和他的团队为厂商提供的解决方案,就是那「一只手就能数出来」的一员,这让他在这一年有了更多实现想法的机会。
 

\

「我们提供的是智能语音交互产品全栈式的解决方案,包括 Wi-Fi 模块,底层技术,操作系统,还有语音 Skill,是软硬结合的全栈式解决方案,这样的能力国内并不多。」尽管宋少鹏已经在这一领域深耕多年,但随着智能音箱行业 2017 年的爆发,他做的这些才开始真正从冷变热再到发烫,因为这些正是构建语音交互生态所必须的。

智能音箱是开启未来的第一步

12 月9 日的腾讯开放日上,第一次面向公众展示的众多腾讯「黑科技」中,最受用户欢迎的 Top3 就有宋少鹏带领深圳米唐科技和腾讯云小微一起打造的「情绪森林」。当我对着屋子里的语音控制台唱出「天青色等烟雨」的歌词时,伴随一圈 LED 灯闪过,屋内的灯光瞬时变成了冷艳的蓝色。宋少鹏为这愁动提供的,就是让设备能「听见」和「理解」人说话的能力,从专业角度讲,就是音频交互解决方案。尽管只是一次活动展示,但米唐科技和腾讯的联手,会在接下来的一年带来更多落地的产品。

「国内这么多厂家在做,大家开始都在学习 Amazon,不知道该怎么做都得从 Echo 那找答案。比如你呼叫音箱,喊完它名字要在几秒内回应?指示灯要怎么亮?亮多长时间?音箱上面的按键怎么设计?这些我们很早就开始研究。」宋少鹏和米唐科技的确很早就看到了 Amazon Echo 带来的影响,从 2013 年离开微软创业开始,他和他的米唐科技,就把智能语音交互定为了主攻方向。

业界很少有做音频解决方案的公司关注这些交互细节,但是米唐科技从一开始就把解决方案和产品体验合在一起,他们甚至编辑了一本厚厚的交互手册,把Echo 的种种细节收录进去,「因为从体验上来说,Amazon Echo 值得学习」,宋少鹏说。这种对体验的把握也换来了好结果,就在十一月亚马逊全球开发者大会上,首次公开了Amazon Alexa 的 SI 计划,米唐科技作为 Amazon 认证并推荐的首批 Amazon Alexa 智能语音系统全球合作伙伴,被介绍给了全球的厂商和合作伙伴,他们被赋予了能够帮助国内厂商出海的能力。

\

这是行业在 2017 年的小小缩影,经历了过去十年 iPhone带动的移动互联网普及,互联网巨头们已经部署起来围绕吃穿住行的生态系统,但想要更进一步融入人们生活还需要更多手段,大洋彼岸大红大紫的 Amazon Echo 无疑是很好的示范。如 Amazon 的脚步一样,语音交互起始于智能音箱,接下来还会有电视盒子(Fire TV),闹钟(Echo Spot)等各种可能。

无疑,2017 年真正打响的不是智能音箱,而是语音交互领域的发令枪。

音箱的背后是语音交互的蓝海

起风的时候,所有厂商都以为会有能力飞的更高,但不是所有厂商都能飞的很远。在宋少鹏看来,米唐科技要做的,是帮助不论大小品牌,都拥有面向未来的解决方案和生产模式,这是即将迎来新交互时代的必要准备。

他举了过去几年正在发生的工厂质检员的例子:

「客户工厂有个小妹妹,她以前是做拧螺丝的测试,因为我们的产品进到工厂,她要做语音交互的测试,刚开始因为英语不行,呼叫 Alexa 呼叫不了,我们的人也会教他怎么测,我们有完整的测试指南,一个一个项目告诉她,这对于一个没有英语基础的人来说这是很难的,但她必须要做。时间长了她开始知道这些英语分别是什么意思。那些工厂里测试的质检员,他们其实不仅要会拧螺丝,还需要学习英语基础,这是产业升级、产品出海的一部分。」

产业链加速升级,没有及时转型的中小品牌被淘汰,但留下的发展就会越来越好。这也是智能音箱作为一个全新阶段的标志,如同智能手机行业优胜劣汰一样。

在宋少鹏看来,智能音箱或者语音落地产品并非是由入场时间决定输赢,服务完成度、交互体验会成为留住用户最重要的砝码,这是语音交互带来变革时最重要的变量,也是一些厂商能够抓住的新机会。在选择和腾讯合作共同进行产品研发时,他看到了这一点:

「语音交互在中国市场是一个从无到有的过程,也是一个特别偏 C 端的产品。腾讯在用户体验运营上有很好的经验,尽管行业需要摸索,但和最关注用户体验的公司一起前行一定是对用户最有益的。」这是中小品牌急需的能力,米唐科技多年的努力正好可以帮助中小企业在这方面补上短板。同时,他还认为,丰富的内容是完善用户体验不可缺少的部分。

「像腾讯这样,有阅文的文学内容,有 QQ 音乐的音乐类内容,有腾讯视频的视频类内容,还和京东电商,滴滴出行,美团点评这些服务部分连接,这些服务矩阵绑在语音技术之后,才更能体现出语音交互的价值,智能硬件不止要做语音交互,还要做好内容服务。」

\

数据更能说明语音交互的产业重点。截至 2017 年底,Amazon Echo 系列在美国销量超过 3300 万台,成功占领很多人家庭时,它凭借的不仅是优质的硬件和语音识别,还有自身 Skill 商店的上万种独特「技能」,正是这些技能让很多人爱上了 Echo。而后起追赶的 Google、微软等公司,自身技能数量只有几百种,远远少于 Echo,因此人们选择时优先考虑的方向更加明确。语音交互时代,品牌与品牌竞争是全方位连接万物的能力,从生活服务到日常工具。当人们开始尝试在家里用语音控制开灯关灯时,如果另外一家产品没有这种能力,竞争力就大大减弱。

如果没有智能音箱,用户无法感知到语音交互连接万物的能力,而智能音箱出现之后,更多产品都将具备「听说」能力,行业在慢慢变化。

「今年 Black Friday 销量最好的一款产品,是一台支持 Alexa 的智能电饭煲。所以人可以用语音控制温度,加热时间等功能,这时语音交互就像 Wi-Fi 一样无处不在,无所不能。」在宋少鹏看来,目前国际包括国内语音交互急需的就是这种连接一切的能力,这在淘汰掉一些与时代脱节的企业的同时,也会为产业创造了更大机会。

对这一点,博联(BroadLink)深有体会,这家公司因为智能音箱的销量增长而收到了不错的市场反溃「和智能音箱配对的智能插座、智能遥控等产品销量提升了百分之五十。」博联科技副总裁赵哲海告诉我们,因为智能音箱而带动的用户需求非常明显。在不改变传统家庭电器使用习惯的基础上,通过更换智能插座、智能遥控等设备,普通用户就可以用语音控制包括台灯、空调、电视机等设备。博联为阿里巴巴、京东的产品都提供了配套的智能产品,这些产品又加强了人们对语音控制万物这件事的真切体验。

这种语音控制万物的能力不仅被赋予到音箱身上,同时也被添加到越来越多智能产品上,腾讯在长安汽车中接入的云小微的服务,小米在电视中接入的语音助手服务,这一系列通过语音交互将万物连接在一起的产业变革中,语音交互解决方案公司,都低调的站在背后,提供完整的解决方案,帮助他们将产品落地。

未来十年的交互革命

让语音交互成为无时不有,无处不在的可能,是宋少鹏创业时曾有过的朴素愿望,因为连接互联网,拥有了无尽的娱乐和社交,智能手机在过去十年枝繁叶茂。这种方式同样为电视机引导了一条路,于是有了智能电视的一波产业热潮。

音频是不是一样也可以做这样的事情?当 2012 年还未出现智能音箱时,他曾有过这种猜想,当 Amazon Echo 出现并改变美国用户的家庭生活时,他的设想成为可能。「从移动互联网时代进入未来十年的物联网时代,产业链在重构边界的过程,Echo 是引发这种改变的第一步。」所以在他看来,尽管智能音箱目前刚刚开始落地中国用户的家庭,但新的交互方式在未来十年诞生更多行业。

\

「智能音箱是语音交互的第一步,是很重要的中心,这个中心建立起来,可以进一步扩展到电视上,还可以放在别的地方,因为语音交互出现,也许可以让去中心化的任务达成。语音交互要被赋予更多设备,电视,冰箱,洗衣机,汽车,这些设备都不能全都由互联网公司完成,用户体验和交互设计全部被下放到这些周边厂商,这也许是去中心化的未来。」

对从事语音交互解决方案的米唐科技而言,能够提供给行业最大的价值就是更丰富的产品形态以及更完善的产品体验。在摸索过程当中,他和团队的确找到了不同的解决方案来应对不同场景。除 Amazon Echo 传统的 6+1 环形麦克风阵列之外,线性麦克风阵列可以为电视机提供服务,单麦克风可以为小型产品提供服务。

「在单麦克风上的技术,我们的 Sugr Sense 有目前全球唯一一套可以通过 Amazon 严格测试并认证的单麦克风解决方案,这能降低行业门槛,还可以提升整个行业的效率。」宋少鹏介绍说,「这项单麦克风解决方案在 Amazon 的测试环境下有很不错的成绩,在 9 英尺的环境下(2.74 米),普通办公或者是家居环境下,唤醒响应率能达到 100%,在 9 英尺的距离,在设备自身播放音乐,AEC(自适应回声消除)场景下,正确响应率达到了 98%。」当然,他和他的团队并不仅仅局限在室内,语音交互会是未来无处不在的交互方式,如同现在人们出门看见屏幕就想要伸手触摸那样,语音交互应该能够出现在各种地方。所以团队也在进行户外场景的解决方案。

这是另外一种挑战,「技术上户外和房间内的产品差异是非常大的,房间是封闭的,那么声音通过墙壁天花板反射到音箱,收到的是各种声音的混叠,坏处是它混叠了,好处是它加强了,音量被加大了。但如果是旷野,你没有任何一个反射,它听到的就是线性的声音,技术处理会不一样。方案成熟的话,未来会有很多场景。」伴随 5G时代的到来,语音交互会和 AR,VR 这些技术共同带来新的变革,而这一切,现在都在悄悄发生。

当不少从来没有接触过智能音箱的家庭第一次感受智能音箱,体会到在各种扩展技能的加持下,用语音控制台灯,冬天不用起床关灯关空调,叫外卖,买东西甚至叫车,看医生......这些基于语音控制中心的「万事万物互联」功能时,新的交互会再一次改变所有人的生活,宋少鹏对此深信不疑。