本文得到了原英文作者Shakir Mohamed的授权同意,由钟琰翻译、何通审校。感谢他们的支持和帮助。
基于前馈深度神经网络的判别模型已经在许多工业应用中获得了成功,引发了探寻如何利用无监督学习方法带来相似结果的热潮。降噪自动编码器是深度学习中一种主要的无监督学习方法。本文将探索降噪自编码器和统计学中密度估计之间的联系,我们将从统计学的视角去考察降噪自动编码器学习方法,并将之视为一种潜在因子模型的推断问题。我们的机器学习应用能从这样的联系中获得启发并受益。
降噪自动编码器是无监督深度学习中的一个重大进步,它极大的提升了数据表示的可扩展性和稳健性。对每个数据点y,降噪自动编码器先利用一个已知的噪化过程$\mathcal{C}(\mathbf{y}’|\mathbf{y})$
建立一个$\mathbf{y}$
的含噪声版本$\mathbf{y}’$
,其后我们以$\mathbf{y}’$
为输入利用神经网络来重新恢复原始数据$\mathbf{y}$
。整个学习网络可以被分为两个部分:编码器和解码器,其中编码器$\mathbf{z}$
的输出可被认为是原始数据的一种表示或特征。该问题的目标函数如下^[Pascal Vincent, Hugo Larochelle, Yoshua Bengio, Pierre-Antoine Manzagol,Extracting and composing robust features with denoising autoencoders, Proceedings of the 25th international conference on Machine learning, 2008]:
$$\textrm{Perturbation:}\quad \mathbf{y}’ \sim\mathcal{C}(\mathbf{y}’|\mathbf{y})$$
$$\textrm{Encoder:}\quad \mathbf{z(y’)} = f_\phi (\mathbf{y’})\qquad\textrm{Decoder:}\quad \mathbf{y} \approx g_\theta (\mathbf{z})$$
$$\textrm{Objective:}\quad\mathcal{L}_{DAE} = \log p(\mathbf{y} |\mathbf{z})$$