在挑战完围棋之后,Google 的深度学习机器人又朝着别的方向迈进。最新的报道显示 DeepMind 在唇语识别领域已经超过了人类专家。
这项研究由 Google 和牛津大学一个深度学习项目组共同完成,从 Newsnigth、BBC 早餐和 Question Time 等 BBC 电视新闻节目中截取了约 5000 小时的视频,总共包含 118000 句话。时间跨度从 2010 年 1 月到 2015 年 12 月,包含完全不同的说话人。
然后,他们以 2016 年 3 月到 9 月的视频节目进行测试,发现 DeepMind 的识别正确率达到了 46.8%,而且很多错误只是没有识别出单词结尾的「s」(复数形式或第三人称动词)。这个正确率虽然依然不算高,但实际上人类的唇语专家的正确率只有 12.4%。
「这是开发全自动唇读系统的一大步,」芬兰奥卢大学的周志成(音译)说, “没有那么大的数据集,我们很难验证新技术,如深度学习。」
两星期前,牛津大学另外一个实验室还开发了一个叫 LipNet 的唇语深度学习系统,但它只能识别 51 个特定的词汇。而喂给 DeepMind 的视频中包含 17500 个词语,而且 BBC 的视频节目中的语法和语调更贴近真实生活。而 LipNet 中的 33000 句话则大多遵循相同的语法模式,更容易被猜测。
现在,下一步的问题除了进一步提高识别率之外,研究人员还在试图找到这一新技术的应用方向。周志成认为,这项技术可能被用于消费电子产品以改善语音助手类的应用在嘈杂环境中更准确的识别机主所说的话。