IT博客汇 | [干货]语音技术最新进展-Interspeech总结

[干货]语音技术最新进展-Interspeech总结

我爱机器学习(52ml.net)发表于 2016-10-11 00:44:49

作者：坤承
来源：阿里技术

原文链接：[干货]语音技术最新进展-Interspeech总结
注：本文为阿里技术公众号授权转载，请勿二次转载。

2016年9月7日-12日，语音与信息处理技术领域顶级的国际会议Interspeech在美国旧金山举行，阿里几位语音技术专家参加了此次会议。

Interspeech是语音领域两个重要的国际会议之一(另一个为ICASSP)，学术界和工业界的从业人员在会议上进行了深入的交流，此次会议内容涵盖了语音识别、语音合成、声纹识别、语种识别、语音增强、多模态、语言模型等多个方向

【语音识别】

1. CTC及类似技术

CTC作为过去两年来最为火热的语音识别技术在此次会议上遇到了一次寒流，文章数量较之前的会议有所下降，相关文章中比较有代表性的一篇是Bengio的学生将Deep CNN CTC做work，而此前很多人一直认为CNN CTC在语音上没有效果。相关论文：

Ying Zhang, Mohammad Pezeshki, et al. “Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks”.

Daniel Povey正式发表了他们前段时间在kaldi上进行的chain的工作，该工作可以看做是对CTC的进一步扩展，直接使用句子级区分性准则进行模型的训练，该方法被认为是下一步提升语音识别效率与性能最有潜力的技术之一。相关论文：

Daniel Povey, Vijayaditya Peddinti, et al. “Purely Sequence-Trained Neural Networks for ASR Based on Lattice-Free MMI”.

谷歌发表了称为Lower Frame Rate (LFR)网络的模型，论文中的研究表明使用单状态的CD-Phone、拼帧并降帧率、soft label、CE初始化、Output Delay等技术可以让传统神经网络识别模型取得和CTC近似或更好的效果。相关论文：

Golan Pundak, Tara N. Sainath. “Lower Frame Rate Neural Network Acoustic Models”。

2. Deep CNN技术

Deep CNN在今年的ICASSP上让人眼前一亮，多家机构表示使用Deep CNN结构相比传统CNN的模型可以显著提升语音识别的准确率，本次会议上Deep CNN的论文并不是很多，比较有代表性的有两篇文章。一篇来自微软，主要工作是将CNN和Attention进行融合。另一篇来自IBM，主要研究了CNN区分性训练加速、time-pooling、Batch Normalization等的影响。相关论文：

Dong Yu, Wayne Xiong, et al. “Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention”

Tom Sercu, Vaibhava Goel. “Advances in Very Deep Convolutional Neural Networks for LVCSR”.

3. 其它Deep Model结构创新与演进

Highway/残差网络在此次会议有不少论文出现，主要是通过层间及越层的直连使模型可以训练的更深并带来更好的识别效果，建模中的trick较多。相关文章：

Liang Lu, Steve Renals. “Small-Footprint Deep Neural Networks with Highway Connections for Speech Recognition”.

Yuanyuan Zhao, Shuang Xu, Bo Xu. “Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling”.

讯飞发表了FSMN声学建模的论文，借鉴了FIR滤波器的思想，论文中的实验在switchboard数据集上取得了不错的效果。相关文章：

Shiliang Zhang, Hui Jiang, Shifu Xiong, Si Wei, Li-Rong Dai. “Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition”.

4. Far-field语音识别

今年可以很明显的感觉到远场识别研究热度的升温，不仅是Tutorial里专门有远场的专题，相关session的数量也比以前更多。文章的增多也反映了IOT产业对于语音识别的需求。基于神经网络的方法在其中占据了主导地位，主要研究方向包括adaptive beamforming、multichannel融合、算法复杂度降低等。感觉未来这方面会是语音识别研究的重点领域。相关论文：

Bo Li, Tara N, et al. “Neural Network Adaptive Beamforming for Robust Multichannel Speech Recognition”.

Suyoun Kim, Ian Lane. “Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition”.

Tara N. Sainath, Arun Narayanan, et al. “Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction”.

【语音合成】

这次会议期间语音合成最大的新闻来自于会场外，Google DeepMind公布了WaveNet系统，用于语音合成、Audio自动生成甚至语音识别。这个系统采用了类似于PixelRNN的方法，直接针对waveform的采样点进行建模，每一个采样点的预测依赖于前面若干采样点作为输入。结合speaker或者text信息作为输入，这个系统可以用来对waveform和speaker/text之间的关系进行建模，继而生成speaker相关的audio信号或者语音合成系统。当采用大量的数据进行训练时，这个系统显示出了良好的语音合成效果，能产生极其类似于自然语音的waveform，该论文声称大幅度缩小了与自然语音之间的差距。

【其它领域】

基于神经网络的Language modeling近年来一直是研究的热点，但由于计算效率上的问题，一直难以落地到实际产品中，现有方法多是与n-gram进行结合，利用插值的方法进行rescore，本次会议上的技术进展也主要集中在这方面。会场外微软在arxiv上发表了” THE MICROSOFT 2016 CONVERSATIONAL SPEECH RECOGNITION SYSTEM”，在RNN-LM的帮助下将switchboard的词识别错误率降低到了6.3%。

声纹和语种方面的文章，主要是围绕I-vector、PLDA等进行的技术改进，以及从识别等领域借鉴已有技术，如Attention机制等来进行一定程度的技术创新。