原文链接:http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/
本文得到了原英文作者Shakir Mohamed的授权同意,由王小宁翻译、冯凌秉和朱雪宁审校。感谢他们的支持和帮助。
深度学习及其应用已经成为实用机器学习的一个关键工具。神经网络和许多现有的统计学、机器学习方法有同等重要的地位,我将在这篇文章中探索其中的一个观点。
看待深度神经网络,我们这里选择一个特别的角度:就是它可以被看做是一个递归的广义线性模型。广义线性模型作为概率建模的基石之一,在实验科学的应用中无处不在,并且极其实用。这篇文章集中讨论前馈神经网络(Feed Forward Neural Network),而关于回馈式神经网络(Recurrent Network)与前者的统计联系,我将在以后文章中讨论。
基本的线性回归模型是一个从由自变量X组成的P维空间到一组因变量Y组成的空间的线性映射。具体地,该线性映射是指通过一组权重(或回归系数) 对X进行加权,并与截距项 的和。线性回归的输出可以是多元的,但在本文中假定其输出为标量。完整的概率模型假定上述线性模型受到高斯噪音的干扰(一般假设其方差未知)。
$$\eta=\beta^Tx+\beta_0$$
$$y = \eta+\epsilon \qquad \epsilon \sim \mathcal{N}(0,\sigma^2)$$
在此公式中, $\eta$
是该模型的系统成分, $\eta$
是随机扰动项。广义线性模型(GLMs) [2]使我们能够对这一模型进行扩展,允许因变量的分布不局限于高斯分布而扩展到更广泛的分布(例如典型的指数分布族)。在这种情况下,我们可以写出广义回归问题,结合系数和偏置为更紧凑的表示法,如:
$$\eta = \beta^\top x, \qquad \beta=[\hat \beta, \beta_0], x = [\hat{x}, 1]$$
$$\mathbb{E}[y] = \mu = g^{-1}(\eta)$$
其中g(•)是连接函数,使我们能够从自然参数$\eta$
求出均值参数$\mu$
。如果把这个连接函数定义成是逻辑斯蒂函数,那么均值参数对应着服从伯努利分布的y等于1或0的概率。
有很多其他的连接函数让我们能够为目标(响应)变量y的分布做出不同假设。在深度学习中,连结函数一般指激活函数,我在下表中列出了它们在两个领域中的名称。从这个表中我们可以看出,很多流行的方法在神经网络与统计学中是一样的,但是在相关文献中(有时)有着完全不一样的名字,如统计中的多项分类回归(multimonial)和深度学习中的softmax分类,或是深度学习中的整流器以及统计中的截取回归模型,它们其实是一样的。
类型 | 回归 | 连结 | 连结的逆 | 激活 |
---|---|---|---|---|
实数 | 线性 | 恒等式 | 恒等式 | |
二元 | 逻辑斯蒂 | 逻辑斯蒂$ \log\frac{\mu}{1 – \mu}$ |
S型σ$\frac{1}{1 + \exp(-\eta)}$ |
S型 |
二元 | 概率 | 逆的高斯累计分布函数$\Phi^{-1}(\mu)$ |
高斯分布函数$ \Phi(\eta)$ |
概率 |
二元 | 耶贝尔分布 | Compl. log-log$ log(-log(\mu))$ |
耶贝尔累计分布函数$e^{-e^{-x}}$ |
|
二元 | 逻辑斯蒂 | 双曲正切$\tanh(\eta)$ |
Tanh | |
分类的 | 多项式 | 多项式逻辑斯蒂$\frac{\eta_i}{\sum_j \eta_j}$ |
SOFTMAX | |
计数 | 泊松 | $\log{\mu}$ |
$\exp(\nu)$ |
|
计数 | 泊松 | $\sqrt(\mu)$ |
$\nu^2$ |
|
非负的 | 伽玛 | 倒数$\frac{1}{\mu}$ |
$\frac{1}{\nu}$ |
|
稀疏的 | 截取回归 | 最大值$\max(0;\nu)$ |
纠正线性单位 | |
顺序 | 序数 | 累积的逻辑斯蒂回归 |