语音科学仍是最终解决口音识别问题的关键所在
插图 | Laurent Hrybyk
编译团队 | 蒋宝尚 Jennifer Zhu
主播 | 段天霖 校对&后期 | 崔云柯
转载请注明来源
我妈等了整整两个月才收到Amazon echo这个软件,不过她还要等我帮她安装到手机上。
当我下载软件的时候,她皱起了眉头。我猜,她可能想到了过去使用Siri的不愉快回忆,也可能她现在会怀疑所有的语音助手设备。 她说:“这些软件好像听不懂我在说啥。”
我老妈出生在菲律宾,老爸出生在印度。英语是他俩的第三语言。虽然他们在美国已生活了近50年,早已能讲流利的英语,然而多少还是会带点儿口音,并常常夹杂不那么道地的短语。 过去,包括Siri、Alexa在内的语音识别技术设备,基本上都不能识别他们“特别”的语音指令。
这不是什么我父母才有的特殊经历。(这样的经历甚至被记录在某些喜剧中,比如这个广为流传的被困在语音控制电梯里的段子(https://www.youtube.com/watch?v=NMS2VnDveP8)。)我嫂子说,她发现Siri不能识别她朋友和家人的“民族名字”,所以就放弃了使用Siri。这种沮丧我能想象:某天我命令Siri“发短信给Zahir”,结果变成了“发短信给Zara”。
尽管看起来,这还不是什么太大的问题,但考虑到一场语音革命正在进行中,这个问题将会变得愈来愈重要。
目前我们已经有了语音服务支持的可穿戴音频视频娱乐系统。由于在开车时司机们往往不怎么专心,语音控制系统可能很快将成为车辆的标配。GoogleHome和Amazon Alexa正想办法实现数百万美国家庭“智慧之家”的梦想。Echo是这个圣诞期间Amazon的畅销王牌,它的销量相对于2016年增长了900个百分点,甚至出现了延期交货,这也是我前面提到的,导致我老妈等了好长时间才收到Echo的原因。
研究人员预计美国今年将有2450万台语音驱动设备投入使用,以此来支持人们的日常工作(http://voicelabs.co/2017/01/15/the-2017-voice-report/)–– 这支持了ComScore的一项预测(https://www.branded3.com/blog/ok-google-give-stats-voice-search/);到2020年,一半的搜索将会通过语音来执行。(译者注:ComScore公司是一家全球性互联网信息服务提供商,是美国知名的互联网统计公司、互联网流量跟踪分析公司和市场调研公司)
随着越来越多的语音控制科技的出现,语音服务如何实现更好地服务带口音人群这一目标?
要训练一台机器识别语音,首先我们需要很多音频样本,研究人员必须收集成千上万人讲述各种话题的语音, 然后手动记录这些音频剪辑。 这些数据 (音频剪辑和书面记录的组合 )将会使得机器在声音和单词之间建立关联。其中使用最频繁的短语将被用于AI算法训练,以识别人类说话。
AI只能识别出训练过的内容,所以训练内容的口音多样性决定了语音识别软件的灵活性。 当前,政府、学术界和小型创业公司已经能依靠已有的音频和书面记录(称为语音语料库)来避免人工转录录音内容这样的劳动密集型工作。 宾夕法尼亚大学的语言数据联盟(LDC)是一个强大的语音语料库。它根据许可协议(https://www.ldc.upenn.edu/data-management/using/licensing)向公司和研究人员提供这些数据集。 Switchboard是LDC里面最著名的语料库之一(https://catalog.ldc.upenn.edu/ldc97s62)。
二十世纪九十年代早期,TexasInstruments推出了Switchboard语音数据库,然后由LDC把Switchboard提供给其他机器学习程序使用。 Switchboard是一个由543位美国人录制的大约2,400个电话对话组成的集合(https://catalog.ldc.upenn.edu/ldc97s62),共有约250小时的录音。当时研究人员通过赠送长途电话卡来招募参与者。 参与者拨打电话和其他参与者联系, 然后两个陌生人会就特定的话题展开讨论,比如如何抚养小宝贝,或最近的体育赛事如何。
因为LDC位于费城,多年来语言学家一直认为这些收集到的谈话样本总体上来看,应该会更接近美国东北部口音。 但是一直到应用程序Yik Yak的机器智能主管MarsalGavald拿到Switchboard参与者的资料时,他才发现在语言库里中西部地区口音其实更多一些,而南部和北中部的口音比例合起来才到40%左右,远没有预想中那么多。
虽然还有许多其他语料库,Switchboard仍然是语音识别系统模型的基准。IBM和Microsoft都使用Switchboard来测试其语音系统单词的错误率(https://www.engadget.com/2017/03/10/ibm-speech-recognition-accuracy-record/)。 Gavaldà告诉我们:“几乎所有的语音识别引擎都使用了这套超500人样本的语料库进行训练”。
以一个只有26年时间限度的语料库为基础开发出来的语音技术,不能识别某些口音是无法避免的。 虽然英语是语言市场中的专业货币,但现实中许多的人是将它作为第二、三甚至第四语言来学习的,口音无法避免。将该过程与药物试验相比较,Gavaldà认为:“比如这种药可能已经在一百名患者中被试验过了,但100人相对庞大的人口基数非常微不足道。如果想以此推断在大多数人身上的效果,试验对象的数量不太具有说服力。”
大多数智能手机的销售都在美国以外的地区(https://www.statista.com/statistics/220977/global-smartphone-market-share-forecast-by-country/),所以大公司需要在全球范围内保持竞争力。苹果、谷歌和亚马逊都有自己一套收集语言和口音数据的秘诀。使用他们产品的消费者越多,能搜集到的反馈就越多,然后就能通过Alexa应用程序上的语音培训(https://www.howtogeek.com/235916/how-to-improve-your-amazon-echo-experience-by-training-it-to-your-voice/)等程序来改善他们的产品。
虽然大型科技公司在收集语音数据方面取得不错的进展,但是由于相互的竞争关系,和市场份额等原因,这些数据无法实现共享。 这是为什么往往最新的语音识别技术需要花费很长时间才能流传开的原因。 这个秘密也适用于我的这篇报道。 亚马逊从来没有回复过我让他们评论这篇报道的请求,谷歌的发言人让我去看一篇介绍他们深度学习技术的博客,而苹果的公关代表则指出现在可以为36个国家定制不同的Siri版本,并支持21种语言、语言变体和口音。
其他国家和地区的企业也意识到口音的重要性。 中国搜索引擎公司百度的一位代表表示,他们建立在深度学习上的对英语和汉语的语音识别精度,比人类识别的更加高。此外,百度还开发了一种能够识别方言和口音的“深度语音”算法。当时的百度首席科学家吴恩达(译者注:目前已离职)告诉《TheAtlantic》(译者注:一新闻媒体) :“中国对英语世界发生的情况相当了解,不过英语世界可能并不了解中国在发生什么。”
另一方面,无力投资在语音数据收集上的小公司和个人会倾向于使用更便宜、更容易获得的数据库。这些数据库在语音数据多样化方面,可能不如之前提到的著名语音数据库。 会议记录初创公司Remeeting的研究员Arlo Faria说到:“至少从我的角度来看,(语音数据)并没有真正变得更加多元化。例如Remeeting研究了一个叫作Fisher的语料库,虽然其中包含一组非英语母语的参与者,但还是忽略了很多其他口音。 比如Fisher里虽然有一些西班牙和印度口音英语,但英国国内不同口音数据却不那么全。”
这就是为什么语音识别技术与人类的反应不同。Pop UpArchive(奥克兰音频搜索平台)的联合创始人兼首席执行官AnneWootton说:“通常软件识别印度口音时更加灵活,而识别像ShenandoahValley南方地区口音会更难一些。我认为这和培训数据是否包括这些口音有重要关系。”
华盛顿大学语言学系的社会语言学方向博士研究生Rachael Tatman指出,这些数据中代表性不足的群体往往是在现实中也是被排斥的群体。 例如,美国的语音数据库中缺乏贫困群体、未受过教育的群体、农村群体、非白人群体、母语非英语群体的英语声音。 她说:“如果某人具有越多的上述特质,那对其的语音识别效果就越差。”
尽管如此,Trint的首席执行官兼联合创始人JeffreyKofman(一个英国自动化语音文本软件公司)却坚信语音科学是最终解决口音识别问题的关键所在。 他谈到,当人们在Trint平台上视频聊天时,Trint可以把澳大利亚口音像英国口音和北美口音一样顺利转为书面记录。 Trint还为十几种欧洲口音的英语提供语音转录记录,并计划在今年晚些时候增加南亚口音。
收集口音语音数据耗资不菲,并且十分麻烦,这也是为什么大多数公司优先考虑收集关键人群语音数据的原因。有南亚口音的Kofman说:“比如在印度、巴基斯坦以及英国、美国和加拿大这些人数众多的国家,人们说话很带有明显的口音。”他表示接下来会优先考虑南非的口音。
显然,不仅语音识别技术歧视带有口音的人群,人类也有。大众媒体和全球化对人们说话的口音有着很大影响。 演讲专家记载了自1960年以来美国某些区域性口音的变化趋势(http://www.nytimes.com/2009/09/03/fashion/03accent.html)(https://news.google.com/newspapers?nid=1310&dat=19600704&id=cRhWAAAAIBAJ&sjid=4eIDAAAAIBAJ&pg=5713,512386),人们倾向于对来自混合地理区域的人使用更一致的口音,比如数字助理或接线员就使用没有口音的声音(https://www.theguardian.com/technology/2016/feb/10/texas-regional-accent-siri-apple-voice-recognition-technology)。
我们也可以理解为,是一种没有任何口音的声音。
随着语音识别技术的进步,这种使用机器人才能听懂的标准口音与设备进行互动的方式将面临挑战。如果人们不需要像对机器说话一样来对设备说话,就可以像一个人类朋友那样自然地和设备说话。 当前有不少人在利用与语音助手(http://www.losemyaccent.com/2016/03/07/siri-understands-me-now-how-accent-reduction-aids-in-the-use-of-voice-recognition-technology/)对话来纠正发音中的方言,但来自旧金山的普通话教学从业者Lisa Wentz老师并不推荐学生这样做。
她的大部分学员或多或少都觉得自己的口音妨碍和他人交流,他们希望通过训练可以让别人听懂自己的话,而不是一遍又一遍的解释刚才的内容。在这种情况下,如果他们使用当前这种还不能很好的适应不同口音的语音设备,无疑会加剧他们的挫败感。
我和我老妈一起设置了她手机上的Alexa应用程序,但她好像并不是很期待。 我都能想象到她对声音驱动汽车的不信任和恐惧。我猜老妈可能永远都不会坐这种车,因为她非常非常担心发生车祸。 不过呢,她还是向Echo问了几个问题。
比如,她说:“Alexa,播放Que sera sera(译者注:一首歌名)。”
“我找不到这首歌:Kissyour ass era.。”
这种识别结果真让人哭笑不得。 她又慢慢地重复了一次,就像在和一个小孩儿说话: “A-l-e-x-a,播-放-Que- sera-sera 。”她甚至还轻轻地唱出了sera 的每个音节,希望软件可以清楚地收录到“se-rah”。
这次Alexa明白了我妈的意图。 他说“这是Doris Day的Que sera sera的歌词。”然而它的sera单词发音有些刺耳 ,听起来更像“se-raw”。
《Kiss your ass era》是首1964的老歌。Alexa能识别我妈出语音和意图,让她高兴了好一阵子。