原版作者:Michael Nielsen
原文链接:http://neuralnetworksanddeeplearning.com/
翻译作者:xhzhu,xhzhu.nju@gmail.com
翻译原文:https://www.gitbook.com/book/tigerneil/neural-networks-and-deep-learning-zh
本文经翻译作者允许转载,严禁二次转载
人类视觉系统是世界上众多奇迹之一。看看下面的手写数字序列:
大多数人毫不费力就能够认出这些数字为 504192. 这么容易反而让人觉着迷惑了。在人类的每个脑半球中,有着一个初级视觉皮层,常称为 V1,包含 1 亿 4 千万个神经元及数百亿条神经元间的连接。但是人类视觉不是就只有 V1,还包括整个视觉皮层——V2、V3、V4 和 V5——他们逐步地进行更加复杂的图像处理。人类的头脑就是一台超级计算机,通过数十亿年的进化不断地演变,最终能够极好地适应理解视觉世界的任务。识别手写数字也不是一件简单的事。尽管人类在理解我们眼睛展示出来的信息上非常擅长,但几乎所有的过程都是无意识地。所以,我们通常并不能体会自身视觉系统解决问题的困难。
如果你尝试写出计算机程序来识别诸如上面的数字,就会明显感受到视觉模式识别的困难。看起来人类一下子就能完成的任务变得特别困难。关于我们识别形状——“9 顶上有一个圈,右下方则是一条竖线”这样的简单直觉——实际上算法上就很难轻易表达出来了。而在你试着让这些识别规则越发精准时,就会很快陷入各种混乱的异常或者特殊情形的困境中。看起来毫无希望。
神经网络以另一种方式看待这个问题。其主要思想是获取大量的手写数字,常称作训练样本,
然后开发出一个可以从这些训练样本中进行学习的系统。换言之,神经网络使用样本来自动推断出识别手写数字的规则。另外,通过增加训练样本的数量,网络可以学到更多关于手写数字的知识,这样就能够提升自身的准确性。所以,上面例子中我们只是展出了 100 个训练数字样本,而通过使用数千或者数百万或者数十亿的训练样本我们也许能够得到更好的手写数字识别器。
本章我们将实现一个可以识别手写数字的神经网络。这个程序仅仅 74 行,不适用特别的神经网络库。然而,这个短小的网络不需要人类帮助便可以超过 96% 的准确率识别数字。而且,在后面的章节,我们会发展出将准确率提升到 99% 的技术。实际上,最优的商业神经网络已经足够好到被银行和邮局分别用在账单核查和识别地址上了。
手写识别常常被当成学习神经网络的原型问题,因此我们聚焦在这个问题上。作为一个原型,它具备一个关键点:挑战性——识别手写数字并不轻松——但也不会难到需要超级复杂的解决方法,或者超大规模的计算资源。另外,这其实也是一种发展出诸如深度学习更加高级的技术的方法。所以,整本书我们都会持续地讨论手写数字识别问题。本书后面部分,我们会讨论这些想法如何用在其他计算机视觉的问题或者语音、自然语言处理和其他一些领域中。
当然,如果本章仅仅是要写一个计算机程序来识别手写数字,那么篇幅就会相当短了!但是我们现在要给出很多有关神经网络的关键思路,包括两个重要类型的神经元(感知机和 sigmoid 神经元),而标准的学习算法就是随机梯度下降。在全书中我都会贯穿对这些选择的原理的解释,以及帮助读者构建神经网络的直觉。这其实就会比单单给出一个神经网络的机制使用更多的文字,但是进行更加深入的研究会更有价值。有了这些深入的理解,在本章的最后我们便能够理解什么是深度学习,为何它如此重要。
什么是神经网络?首先,我会解释一种类型的人工神经元,成为感知机(perceptron)。感知机是在 1950 – 1960 年代由 Frank Rosenblatt 提出的,他受到了 Warren McCulloch 和 Walter Pitts 的前期工作的启发。现在,常常都会使用其他类型如在本书中的人工神经元模型,而在更加现代的神经网络中,主要的神经元模型就是 sigmoid 神经元。我们后面会简要介绍 sidmoid 神经元。但是为了理解为何 sigmoid 神经元按照那种特定的方式定义,就有必要先花时间理解感知机。
所以感知机是怎么工作的?感知机以若干二元值 \(x_1, x_2,…\)作为输入,产生单一的二元值输出:
在上面的例子中的感知机有三个输入:\(x_1, x_2, x_3\)。一般来说,这可以是其他的数量。Rosenblatt 提出了一个简单的规则来计算输出。他引入了实值的权重(weights) \(w_1,w_2,…\) 来表示输入对输出的相应的贡献。神经元的输出,\(0/1\) 就是通过带权和 \(\sum_j w_jx_j\) 是否超过某个阈值确定的。如权重一样,阈值也是一个实值得神经元的参数。用更加代数的形式就是:
这就是感知机工作的机制!
这是一个基本的数学模型。感知机可以看做是一个可以对证据进行归整的设备。让我们给出一个例子。这不是一个非常现实的例子,但是很容易理解,后面我也会有更加真实的例子。假设周末来临,你听说会有一个起司节快要在你所在的城市举行。你很喜欢起司,试着决定是否参加这个节日。你可能会根据下面的因素权衡做出最终的决定:
我们能够使用对应的二元变量来表示这三个因素,\(x_1, x_2, x_3\)。例如,如果天气好,我们就有 \(x_1 = 1\),否则 \(x_0 = 0\)。