文本表示文本表示是计算机处理自然语言的核心,我们希望计算机能够同人类一样对自然语言能够实现语义层面的理解,但这并非易事。在中文和拉丁语系中,文本的直观表示就存在一定的差异,拉丁语系中词与词之间存在天然的分隔符,而中文则没有。I can eat glass, it doesn’t hurt me.我能吞下玻璃而不伤身体。所以,在处理中文之前我们往往需要对原始文本进行分词,在此我们不谈这部分工作,假设我们已经得到了分词完的文本,即我们后续需要处理的“词”。早期的词表示方法多采用独热编码 (One-Hot Encoding),对于每一个不同的词都使用一个单独的向量进行表示。对于一个包含$n$个词的语料而言,一个词的向量表示$\text{word}_i \in \left\{0, 1\right\}^n$仅在第$i$的位置值为 1,其他位置的值均为 0。例如,我们可以将“父亲”表示为:$$ \left[1, 0, 0, 0, 0, 0, ...\right] \nonumber $$One-Hot Encoding 的表示方法十分简洁,但也存在着一些问题。维数灾难 (The Curse of Dimensionality)在很多现实问题中,我们仅用少数的特征是很难利用一个线性模型将数据区分开来的,也就是线性不可分问题。一个有效的方法是利用核函数实现一个非线性变换,将非线性问题转
...
继续阅读
(52)