IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    从统计学角度来看深度学习(1):递归广义线性模型

    统计之都发表于 2015-05-17 10:52:45
    love 0

    原文链接:http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/

    作者:Shakir Mohamed

    本文得到了原英文作者Shakir Mohamed的授权同意,由王小宁翻译、冯凌秉和朱雪宁审校。感谢他们的支持和帮助。

    深度学习及其应用已经成为实用机器学习的一个关键工具。神经网络和许多现有的统计学、机器学习方法有同等重要的地位,我将在这篇文章中探索其中的一个观点。

    看待深度神经网络,我们这里选择一个特别的角度:就是它可以被看做是一个递归的广义线性模型。广义线性模型作为概率建模的基石之一,在实验科学的应用中无处不在,并且极其实用。这篇文章集中讨论前馈神经网络(Feed Forward Neural Network),而关于回馈式神经网络(Recurrent Network)与前者的统计联系,我将在以后文章中讨论。

    广义线性模型(GLMs)

    基本的线性回归模型是一个从由自变量X组成的P维空间到一组因变量Y组成的空间的线性映射。具体地,该线性映射是指通过一组权重(或回归系数) 对X进行加权,并与截距项 的和。线性回归的输出可以是多元的,但在本文中假定其输出为标量。完整的概率模型假定上述线性模型受到高斯噪音的干扰(一般假设其方差未知)。

    $$\eta=\beta^Tx+\beta_0$$

    $$y = \eta+\epsilon \qquad \epsilon \sim \mathcal{N}(0,\sigma^2)$$

     在此公式中, $\eta$是该模型的系统成分, $\eta$是随机扰动项。广义线性模型(GLMs) [2]使我们能够对这一模型进行扩展,允许因变量的分布不局限于高斯分布而扩展到更广泛的分布(例如典型的指数分布族)。在这种情况下,我们可以写出广义回归问题,结合系数和偏置为更紧凑的表示法,如:

    $$\eta = \beta^\top x, \qquad \beta=[\hat \beta, \beta_0], x = [\hat{x}, 1]$$

    $$\mathbb{E}[y] = \mu = g^{-1}(\eta)$$

    其中g(•)是连接函数,使我们能够从自然参数$\eta$求出均值参数$\mu$ 。如果把这个连接函数定义成是逻辑斯蒂函数,那么均值参数对应着服从伯努利分布的y等于1或0的概率。

    有很多其他的连接函数让我们能够为目标(响应)变量y的分布做出不同假设。在深度学习中,连结函数一般指激活函数,我在下表中列出了它们在两个领域中的名称。从这个表中我们可以看出,很多流行的方法在神经网络与统计学中是一样的,但是在相关文献中(有时)有着完全不一样的名字,如统计中的多项分类回归(multimonial)和深度学习中的softmax分类,或是深度学习中的整流器以及统计中的截取回归模型,它们其实是一样的。

    目标

    类型 回归 连结 连结的逆 激活
    实数 线性 恒等式 恒等式
    二元 逻辑斯蒂 逻辑斯蒂$ \log\frac{\mu}{1 – \mu}$ S型σ$\frac{1}{1 + \exp(-\eta)}$ S型
    二元 概率 逆的高斯累计分布函数$\Phi^{-1}(\mu)$ 高斯分布函数$ \Phi(\eta)$ 概率
    二元 耶贝尔分布 Compl. log-log$ log(-log(\mu))$ 耶贝尔累计分布函数$e^{-e^{-x}}$
    二元 逻辑斯蒂 双曲正切$\tanh(\eta)$ Tanh
    分类的 多项式 多项式逻辑斯蒂$\frac{\eta_i}{\sum_j \eta_j}$ SOFTMAX
    计数 泊松 $\log{\mu}$ $\exp(\nu)$
    计数 泊松 $\sqrt(\mu)$ $\nu^2$
    非负的 伽玛 倒数$\frac{1}{\mu}$ $\frac{1}{\nu}$
    稀疏的 截取回归 最大值$\max(0;\nu)$ 纠正线性单位
    顺序 序数 累积的逻辑斯蒂回归


沪ICP备19023445号-2号
友情链接