系列的第一篇概览了一下深度学习中的基本概念。第二篇介绍了深度学习的历史背景,以及如何高效地训练神经网络。而这一篇当中,我们将一起认识自然语言处理领域的核心:序列学习。
生活中的所有事物都是与时间相关的,也就形成了一个序列。为了对序列数据(文本、演讲、视频等)我们可以使用神经网络并导入整个序列,但是这样我们的数据输入尺寸是固定的,局限性就很明显。如果重要的时序特征事件恰好落在输入窗以外,就会产生更大的问题。所以我们需要的是:
能对任意长度序列做逐个元素读取的神经网络(比如视频就是一系列的图片;我们每次给神经网络一张图);
有记忆的神经网络,能够记得若干个时间步以前的事件、这些问题和需求已经催生出多中不同的循环神经网络。
若我们想让一个常规的神经网络解决两个数相加的问题,那我们只需要输入两个数字,再训练两数之和的预测即可。如果现在有3个数要相加,那么我们可以:
拓展网络架构,添加输入和权重,再重新训练;
把第一次的输出(即两数之和)和第三个数作为输入,再返回给网络。
方案(2)显然更好,因为我们希望避免重新训练整个网络(网络已经“知道”如何将两个数相加)。如果我们的任务变成:先对两数做加法,再减去两个不同的数,那这个方案又不好使了。即使我们使用额外的权重,也不能保证正确的输出。相反,我们可以尝试“修改程序”,把网络由“加法”变成“减法”。通过隐藏层的加权可以实现这一步(见图2),如此便让网络的内核随着每个新的输入而变化。网络将学习着在相加两个数之后,把程序从“加法”变成“减法”,然后就解决了问题。
我们甚至可以泛化这一方法,传递给网络两个数字,再传入一个“特殊”的数字——代表着数学运算“加法”,“减法”或“乘法”。实践当中这样或许不尽完美,但也能得到大体正确的结果了。不过这里的主要问题倒不在于得到正确结果,而是我们可以训练循环神经网络,使之能够学习任意输入序列所产生的特殊输出,这就威力大了。
例如,我们可以教网络学会词语的序列。Soumith Chintala和Wojciech Zaremba写了一篇优秀的博客讲述用RNN做自然语言处理。RNN也可以用于生成序列。Andrej Karpathy写了这篇[有趣而生动的博客],展示了字词级别的RNN,可以模仿各种文风,从莎士比亚,到Linux源码,再到给小孩儿起名。
长短期记忆单元使用自连接的线性单元,权重为常数1.0。这使得流入自循环的值(前向传播)或梯度(反向传播)可以保持不变(乘以1.0的输入或误差还是原来的值;前一时间步的输出或误差也和下一时间步的输出相同),因而所有的值和梯度都可以在需要的时候准确回调。这个自循环的单元,记忆细胞,提供了一种可以储存信息的记忆功能,对之前的若干个时间步当中有效。这对很多任务都极其有效,比如文本数据,LSTM可以存储前一段的信息,并对当前段落的序列应用这些信息。
另外,深度网络中一个很普遍的问题叫作“梯度消失”问题,也即,梯度随着层数增多而越来越小。有了LSTM中的记忆细胞,就有了连续的梯度流(误差保持原值),从而消除了梯度消失问题,能够学习几百个时间步那么长的序列。
然而有时我们会想要抛掉旧有信息,替换以更新、更相关的信息。同时我们又不想释放无效信息干扰其余部分的网络。为了解决这个问题,LSTM单元拥有一个遗忘门,在不对网络释放信息的情况下删除自循环单元内的信息(见图1)。遗忘门将记忆细胞里的值乘以0~1之间的数字,其中0表示遗忘,1表示保持原样。具体的数值宥当前输入和上一时间步的LSTM单元输出决定。
在其他时间,记忆细胞还需要保持多个时间步内不变,为此LSTM增加了另一道门,输入门(或写入门)。当输入门关闭时,新信息就不会流入,原有信息得到保护。
另一个门将记忆细胞的输出值乘以0(抹除输出)~1()之间的数,当多个记忆相互竞争时这很有用:一个记忆细胞可能说:“我的记忆非常重要!所以我现在就要释放”,但是网络却可能说:“你的记忆是很重要,不过现在又其他更重要的记忆细胞,所以我给你的输出门赋予一个微小的数值,给其他门大数值,这样他们会胜出”。
LSTM单元的连接方式初看可能有些复杂,你需要一些时间去理解。但是当你分别考察各个部件的时候,会发现其结构其实跟普通的循环神经网络没啥两样——输入和循环权重流向所有的门,连接到自循环记忆细胞。
想要更深入地了解LSTM并认识整个架构,我推荐阅读:LSTM: A Search Space Odyssey和original LSTM paper。
想象”cat”和其他所有与”cat”相关联的词汇,你可能会想到”kitten”,”feline”。再想一些不那么相似,但是又比”car”要相似得多的,比如”lion”,”tiger”,”dog”,”animal”或者动词”purring”,”mewing”,”sleeping”等等。
再想象一个三维的空间,我们把词”cat”放在正中间。上面提到的词语当中,与”cat”相似的,空间位置也离得更近;比如”kitty”,”feline”就离中央很近;”tiger”和”lion”就稍微远一点;”dog”再远一点;而”car”就不知远到哪里去了。可以看图3这个词嵌入二维空间的例子。
如果我们我们用向量来代表空间里的每一个词,那么每个向量就由3个坐标构成,比如”cat”是(0, 0, 0)
,”kitty”可能是(0,1, 0,2, -0,3)
而”car”则是(10, 0, -15)
。这个向量空间,就是词嵌入空间,每个词对应的三个坐标可以用做算法的输入数据。
典型的词嵌入空间含有上千个词和上百个维度,人类是很难直观理解的,但是相似的词距离近这个规律仍然成立。对于机器来说,这是一种很好的词汇表征,可以提高自然语言处理能力。
如果你想要学习更多词嵌入的内容,以及如何应用于创建模型“理解”语言,推荐阅读:Understanding Natural Language with Deep Neural Networks Using Torch,作者:Soumith Chintala和Wojciech Zaremba。
让我们暂时停下自然语言处理,来想象一个西红柿,想象那些适合西红柿的配料或菜肴。如果你的想法和那些网上最常见的菜谱差不多,那你想到的可能是诸如奶酪和萨拉米;帕尔马干酪、罗勒、通心粉;或其他配料比如橄榄油、百里香和西芹等等。(换作中国人来想,肯定是鸡蛋)。这些配料主要都是意大利、地中海菜系。
还是那个西红柿,如果要吃墨西哥菜系,你想到的可能是豆子、玉米、辣椒、芫荽叶或鳄梨。
你刚才所想的,就是把词汇“西红柿”的表征变换成了新的表征:“墨西哥菜里的西红柿”。
“编码”(Encoder)做的是同样的事,它通过变换词汇的表征,把输入词汇逐个变换为新的“思维向量”。就像给“西红柿”加入了上下文“墨西哥菜”,这是“编码-解码”架构的第一步。
编码-解码架构的第二步是基于这样一个事实:不同的语种在词嵌入空间里,具有相似的几何结构,即便对同一个事物,描述用词完全不同。比如在德语里“猫”是”Katze”,狗是”Hund”,与英语截然不同,但是两个词之间的关系确实一样。Karze与Hund的关系,跟Car与Dog的关系完全一致,换言之,即使词汇本身不同,他们背后的“思维向量”确实一样的。当然也有些词汇很难用其他语言表达(比如中文里的“缘分”之类),但是这种情况比较稀罕,总体上是成立的。
基于以上思想,我们就可以构建解码网络了。我们把英语编码器产生的“思维向量”传递给德语解码器。德语解码器会把这些思维向量或关系变换映射到德语词嵌入空间里,然后就会产生一句话,保持英语句子里的关系。如此我们就有了一个能做翻译的网络,这个思想目前仍在发展,结果虽然不完美,但却在极快提高,不久就会成为翻译的最佳方法。
如果你想对编码-解码架构和机器翻译了解更多,推荐阅读:blog post about the encoder-decoder architecture,作者Kyunghyun Cho