智能时代“神翻译”还能走多远

2015-07-28 14:14:30来源：威易网作者：

一部吸引人的影视作品，如果没有呈现通俗易懂的字幕，很容易让人产生乏味的观感。例如当你四处翻墙好不容易下载到一直在追的美剧，打开时却出现两种情况，要不就是没有字幕，你除了简单的对话之外几乎听不懂大部分内容；要不屏幕上就是字幕组天马行空的“神翻译”...

一部吸引人的影视作品，如果没有呈现通俗易懂的字幕，很容易让人产生乏味的观感。例如当你四处翻墙好不容易下载到一直在追的美剧，打开时却出现两种情况，要不就是没有字幕，你除了简单的对话之外几乎听不懂大部分内容；要不屏幕上就是字幕组天马行空的“神翻译”，你只能当作纠错练习或者搞笑，但追剧心切，长期没有字幕或者“神翻译”，只会让观看者有蛋碎般糟糕的体验感。

那么，视频中的字幕是怎么显示出来的？目前的字幕技术发展又是怎样的呢？

视频字幕的展现形式以及展现过程

视频字幕的展现形式分为硬字幕、软字幕以及外挂字幕三种。第一种硬字幕就是在视频制作前期就将字幕信息编码到影视中，它将字幕和画面融为一体，可以最好的兼容视频，只要视频能播放字幕就会被加载出来，现在的移动设备下的MP4等视频都是使用的这种字幕形式，但是你想更换字幕就麻烦了，需要Video Decoder后解析出原生Video剔除字幕信息重新编辑，除了视频制作方和专业的视频分析机构，一般不会有人闲的无聊去做这样的事。

第二种字幕是外挂字幕，它相对硬字幕而言较为灵活。通常的PC播放器都支持加载外挂字幕的功能，外挂字幕以文件的形式与视频文件同时存在，在播放视频时通过手动方式将外挂字幕加载进播放器即可实现字幕呈现。当然，这类字幕也有它先天的缺点，我们常常发现下载的字幕显示与视频不同步，或字幕出现乱码，并且与视频文件同在，让人有一种累赘多余的体验。

外挂字幕繁琐，硬字幕又不可编辑，而第三种软字幕则介于二者之间，它可以将多个字幕文件和视频封装在一起做为一个文件输出，播放视频时去选择需要加载的某个字幕，需要的时候还可以将字幕分离出来去编辑或替换，非常方便。

但是新的问题来了，当遇到视频语音与字幕不匹配，或找不到外挂字幕又听不懂奇怪的视频对话的情况下，有没有一种方式可以自动匹配音频修改校对字幕信息或生成对应字幕信息呢？

智能时代的字幕技术

深入了解字幕识别的技术后，才知道原来那些年我们下载的美剧字幕翻译都是志愿者们人工翻译出来上传共享的，要做到自动匹配字幕或生成字幕，必须要有强大的语音识别技术做支撑。而语音识别技术涉及面很广，覆盖了统计模式识别技术、语音信号线性预测编码技术、动态时间规整技术，以及完备的声学和语言模型，而人类的语音又会依据环境不同而变化，因此必须使用生物识别模板。所以，用语音识别转换字幕可是不是一件简单的事儿。

需求总是带动市场的发展。在了解了利用语音技术来进行字幕工作的优势后，我查看了解了一下国内外知名的语音识别和影视制作的公司机构的网站，发现Google有一个新鲜玩意已经试运行了一段时间，叫做Peanut Gallery，它可以在页面上提供一部经典的默片，然后让你根据画面上的内容来配一些有意思的对白，你只要将这些对白在麦克风前说出来就可以了，利用Chrome的谷歌语音翻译技术，Peanut Gallery可以将你说的话实时转化成文字字幕，和默片结合在一起，这样一部由你来决定对白的经典默片就出炉了。

这就是利用了目前比较智能的语音识别转化字幕的技术，但是它有一个非常局限性的缺点，就是只能在Chrome浏览器上使用，并且不能完成个性化体验的需求，好玩却没有什么卵用。

国内的百度也提供了一个语音开放平台，用户可以定制开发自己的语音产品应用，但尚没有成熟的视频语音转化产品问世，科大讯飞作为老牌的国内语音识别技术公司，也没有向影视作品的语音转化字幕发力，反而一些后起之秀如OKVoice的字幕大师等正在尝试将用户对影视字幕的个性需求产品化，也算业界比较有独立思考和创新精神的企业。

由此看来，利用语音识别技术来完成字幕工作已经有猛烈发展的趋势了，相信以后的字幕工作将会越来越智能化，便捷化、精准化，而音视频制作产业也将会产生新的变革，人们的观影体验也会得到极大的提升。或许，“神翻译”们也到了将要离开字幕舞台的时候。

关键词：字幕 OKVoice 百度科大讯飞

智能时代“神翻译”还能走多远

相关阅读: