52nlp
发表于
2015-10-20 10:58:03

出门问问宣布完成由Google投资的C轮融资，累计融资7500万美金

注：出门问问是我们的老朋友，创始人李志飞也是NLP和机器翻译领域的大牛，今天出门问问拿到了Google的C轮融资，志飞兄第一时间和我分享了这条新闻，太牛了。人工智能创业公司出门问问（Mobvoi），于近日完成了由Google投资的C轮融资，累计融资7500万美金。现有投资方包括红杉资本、真格基金，SIG海纳亚洲、圆美光电、及歌尔声学。此轮投资Google并不控股，出门问问团队依旧有绝对控制权。此次由Google投资的C轮融资，能够保证出门问问在人工智能领域长期持续深耕，专注核心技术上的进一步研发，在可穿戴、车载以及机器人领域拓展新的人机交互产品形态，更深入地完善用户体验，在吸引全球顶尖技术与商务人才上更具优势。对于海外市场的扩展，此次融资也将发挥非常重要的作用。Google 企业发展部副总裁Don Harrison 说到选择投资出门问问的原因：“出门问问研发了非常独特自成体系的语音识别与自然语言处理技术。我们被他们的创新科技与发展潜力打动，所以我们很迅速地决定用投资的方式帮助他们在未来快速成长。”红杉资本全球执行合伙人沈南鹏评价：“出门问问一直处于高速的不断创新过程中，从移动app到硬件产品到语音搜索平台，不同形式的产品背后是团队长期以来形成的强大技术核心，获得Google的投资是对这种中国原创能力的最好肯定。我很高兴Google这样的巨头看好出门问问，并和我们一起投入到这支高速创 ...继续阅读 (42)

52nlp
发表于
2015-09-14 04:43:54

斯坦福大学深度学习与自然语言处理第四讲：词窗口分类和神经网络

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊Richard Socher，以下为相关的课程笔记。第四讲：词窗口分类和神经网络（Word Window Classification and Neural Networks）推荐阅读材料：[UFLDL tutorial][Learning Representations by Backpropogating Errors]第四讲Slides [slides]第四讲视频 [video]以下是第四讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。本讲概览分类问题背景在分类任务中融入词向量窗口分类和交叉熵误差推导技巧一个单层的神经网络最大间隔损失和反向传播分类问题定义一般情况下我们会有一个训练模型用的样本数据集$${\{x_i, y_i\}}^N_{i=1}$$其中$x_i$是输入，例如单词（标识或者向量），窗口内容，句子，文档等$y_i$是我们希望预测的分类标签，例如情绪指标，命名实体，买卖决定等分类问题直窥训练集：${\{x_i, y_i\}}^N_{i=1}$一个简单的例子一个固定的2维词向量分类使用逻辑回归->线性决策边界->从机器学习的角度来看：假设x是固定的，仅仅 ...继续阅读 (108)

52nlp
发表于
2015-08-25 15:10:26

用MeCab打造一套实用的中文分词系统(四)：MeCab增量更新

最近在处理NLPJob的一些数据，发现之前训练的Mecab中文分词工具包还有一些问题，所以想到了为NLPJob定制一个MeCab中文分词器，最简单的方法就是整理一批相关的词条，可以通过词条追加的方法加到原有的Mecab中文分词词典中去，这个可以参考《日文分词器Mecab文档》中介绍的“词条追加”方法，既可以放到系统词典中，也可以放到用户词典中，很方便。不过这个还不是最佳方案，之前有用户在《用MeCab打造一套实用的中文分词系统》中留言：你好，我在win7上训练的时候mecab-cost-train的时候会崩溃，请问下我能每次只训练一小部分，然后最后一起发布嘛?我google了一下，发现MeCab的作者Taku Kudo在google plus上给了一个增量更新的方案：https://plus.google.com/107334123935896432800/posts/3g83gkBoSYE当然这篇文章是用日文写得，不过如果熟悉Mecab的相关脚本，很容易看懂。增量更新除了可以解决在小内存机器上分批训练模型外，也可以很容易在一个已有的基准分词模型上定制特定领域的分词器，既更新词典，也更新模型，这才是我理想中NLPJob中文分词器的定制之路。按照这条路子，我预处理了一下NLPJob中的数据，包括提取和校正了公司名，在已有的Mecab-Chinese中文工具包的基础上，手工标记一批N ...继续阅读 (116)

52nlp
发表于
2015-07-15 09:31:40

斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊Richard Socher，以下为相关的课程笔记。第三讲：高级的词向量表示（Advanced word vector representations: language models, softmax, single layer networks）推荐阅读材料：Paper1：[GloVe: Global Vectors for Word Representation]Paper2：[Improving Word Representations via Global Context and Multiple Word Prototypes]Notes：[Lecture Notes 2]第三讲Slides [slides]第三讲视频 [video]以下是第三讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。回顾：简单的word2vec模型代价函数J其中的概率函数定义为：我们主要从内部向量(internal vector)$v_{w_I}$导出梯度计算所有的梯度我们需要遍历每一个窗口内的中心向量(center vector)的梯度我们同时需要每一个外部向量（external vector ...继续阅读 (224)

52nlp
发表于
2015-06-04 13:59:25

斯坦福大学深度学习与自然语言处理第二讲：词向量

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊Richard Socher，以下为相关的课程笔记。第二讲：简单的词向量表示：word2vec,Glove(Simple Word Vector representations: word2vec, GloVe)推荐阅读材料：Paper1：[Distributed Representations of Words and Phrases and their Compositionality]]Paper2：[Efficient Estimation of Word Representations in Vector Space]第二讲Slides [slides]第二讲视频 [video]以下是第二讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。如何来表示一个词的意思（meaning)英文单词Meaning的定义(来自于韦氏词典)the idea that is represented by a word, phrase, etc.the idea that a person wants to express by using words, signs, etc.the idea ...继续阅读 (501)

52nlp
发表于
2015-05-21 09:52:45

斯坦福大学深度学习与自然语言处理第一讲：引言

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊Richard Socher，他本人是德国人，大学期间涉足自然语言处理，在德国读研时又专攻计算机视觉，之后在斯坦福大学攻读博士学位，拜师NLP领域的巨牛Chris Manning和Deep Learning领域的巨牛Andrew Ng，其博士论文是《Recursive Deep Learning for Natural Language Processing and Computer Vision》，也算是多年求学生涯的完美一击。毕业后以联合创始人及CTO的身份创办了MetaMind，作为AI领域的新星创业公司，MetaMind创办之初就拿了800万美元的风投，值得关注。回到这们课程CS224d,其实可以翻译为“面向自然语言处理的深度学习（Deep Learning for Natural Language Processing）”，这门课程是面向斯坦福学生的校内课程，不过课程的相关材料都放到了网上，包括课程视频，课件，相关知识，预备知识，作业等等，相当齐备。课程大纲相当有章法和深度，从基础讲起，再讲到深度学习在NLP领域的具体应用，包括命名实体识别，机器翻译，句法分析器，情感分析等。Richar ...继续阅读 (142)

52nlp
发表于
2015-04-28 13:59:14

用MeCab打造一套实用的中文分词系统(三)：MeCab-Chinese

我在Github上发布了一个MeCab中文分词项目:MeCab-Chinese, 目的是提供一个用于中文分词和词性标注的MeCab词典和模型数据，类似MeCab日文IPA词典（mecab-ipadic），并且提供一些我自己用到的特征模板和脚本，方便大家从源头开始训练一个MeCab中文分词系统。自从上次在愚人节的时候发布了一个mecab中文词典和数据模型之后（《用MeCab打造一套实用的中文分词系统(二)》), 收到了一些反馈，而这些反馈又促使我深入的review了一下mecab，重新设计特征及特征模板，加入了一些新的词典数据，重新训练模型，感兴趣的同学可以先试试这个0.2版本： mecab-chinesedic-binary （链接:http://pan.baidu.com/s/1gdxnvFX密码: kq9g）注：目前所有发布的版本均默认utf-8编码，并且在Mac OS和Linux Ubuntu下测试有效，windows没有测试，感兴趣的同学可自行测试）了解和安装mecab仍请参考：日文分词器 Mecab 文档用MeCab打造一套实用的中文分词系统这里再补充一点，由于google code废弃的缘故，MeCab这个项目已经搬迁至github，但是一些资源反而不如之前那么好找了，可参考两个MeCab作者维护的页面:MeCab日文文档：http://taku910.github.i ...继续阅读 (112)

52nlp
发表于
2015-04-01 15:05:48

用MeCab打造一套实用的中文分词系统(二)

虽然是愚人节，但是这个不是愚人节玩笑，最近花了一些时间在MeCab身上，越发喜欢这个来自岛国的开源分词系统，今天花了一些时间训练了一个更适用的模型和词典，打包提供给大家使用，因为数据和词典涉及到一些版权问题，所以打包文件里只是mecab用于发布的二进制词典和模型文件，目前在mac os和linux ubuntu系统下测试无误，其他系统请自行测试使用：链接:http://pan.baidu.com/s/1sjBfdXr密码: 8udf了解和安装mecab请参考：日文分词器 Mecab 文档用MeCab打造一套实用的中文分词系统使用前请按上述文档安装mecab，下载这个中文分词模型和词典之后解压，解压后得到一个mecab-chinese-data目录，执行:mecab -d mecab-chinese-data扬帆远东做与中国合作的先行扬帆 v,*,*,*,*,*,扬帆,*,*远东 ns,*,*,*,*,*,远东,*,*做 v,*,*,*,*,*,做,*,*与 p,*,*,*,*,*,与,*,*中国 ns,*,*,*,*,*,中国,*,*合作 v,*,*,*,*,*,合作,*,*的 u,*,*,*,*,*,的,*,*先行 vn,*,*,*,*,*,先行,*,*EOS上述第二列提供了词性标注结果。如果想得到单行的分词结果，可以这样执行：mecab -d ./mecab-chinese-d ...继续阅读 (84)

52nlp
发表于
2015-03-12 13:13:25

中英文维基百科语料上的Word2Vec实验

最近试了一下Word2Vec,GloVe以及对应的python版本gensim word2vec和python-glove，就有心在一个更大规模的语料上测试一下，自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源：https://dumps.wikimedia.org，可以方便的下载多种语言多种格式的维基百科数据。此前通过gensim的玩过英文的维基百科语料并训练LSI，LDA模型来计算两个文档的相似度，所以想看看gensim有没有提供一种简便的方式来处理维基百科数据，训练word2vec模型，用于计算词语之间的语义相似度。感谢Google，在gensim的google group下，找到了一个很长的讨论帖：training word2vec on full Wikipedia，这个帖子基本上把如何使用gensim在维基百科语料上训练word2vec模型的问题说清楚了，甚至参与讨论的gensim的作者Radim Řehůřek博士还在新的gensim版本里加了一点修正，而对于我来说，所做的工作就是做一下验证而已。虽然github上有一个wiki2vec的项目也是做得这个事，不过我更喜欢用python gensim的方式解决问题。关于word2vec，这方面无论中英文的参考资料相当的多，英文方面既可以看官方推荐的论文，也可以看gensim作者Radim Ře ...继续阅读 (436)

52nlp
发表于
2015-03-07 10:05:47

HMM相关文章索引

HMM系列文章是52nlp上访问量较高的一批文章，这里做个索引，方便大家参考。HMM学习HMM学习最佳范例一：介绍HMM学习最佳范例二：生成模式HMM学习最佳范例三：隐藏模式HMM学习最佳范例四：隐马尔科夫模型HMM学习最佳范例五：前向算法HMM学习最佳范例五：前向算法1HMM学习最佳范例五：前向算法2HMM学习最佳范例五：前向算法3HMM学习最佳范例五：前向算法4HMM学习最佳范例五：前向算法5HMM学习最佳范例六：维特比算法HMM学习最佳范例六：维特比算法1HMM学习最佳范例六：维特比算法2HMM学习最佳范例六：维特比算法3HMM学习最佳范例六：维特比算法4HMM学习最佳范例六：维特比算法5HMM学习最佳范例七：前向-后向算法HMM学习最佳范例七：前向-后向算法1HMM学习最佳范例七：前向-后向算法2HMM学习最佳范例七：前向-后向算法3HMM学习最佳范例七：前向-后向算法4HMM学习最佳范例七：前向-后向算法5HMM学习最佳范例八：总结HMM学习最佳范例全文文档PDF百度网盘-密码f7azHMM相关wiki上一个比较好的HMM例子几种不同程序语言的HMM版本HMM应用HMM词性标注HMM在自然语言处理中的应用一：词性标注1HMM在自然语言处理中的应用一：词性标注2HMM在自然语言处理中的应用一：词性标注3HMM在自然语言处理中的应用一：词性标注4HMM在自然语言处理中的应用一 ...继续阅读 (64)

prml
发表于
2015-01-31 05:38:19

PRML读书会第十四章 Combining Models

PRML读书会第十四章 Combining Models主讲人网神（新浪微博:@豆角茄子麻酱凉面）网神(66707180) 18:57:18大家好，今天我们讲一下第14章combining models，这一章是联合模型，通过将多个模型以某种形式结合起来，可以获得比单个模型更好的预测效果。包括这几部分：committees, 训练多个不同的模型，取其平均值作为最终预测值。boosting: 是committees的特殊形式，顺序训练L个模型，每个模型的训练依赖前一个模型的训练结果。决策树：不同模型负责输入变量的不同区间的预测，每个样本选择一个模型来预测，选择过程就像在树结构中从顶到叶子的遍历。conditional mixture model条件混合模型：引入概率机制来选择不同模型对某个样本做预测，相比决策树的硬性选择，要有很多优势。本章主要介绍了这几种混合模型。讲之前，先明确一下混合模型与Bayesian model averaging的区别，贝叶斯模型平均是这样的：假设有H个不同模型h，每个模型的先验概率是p(h)，一个数据集的分布是：整个数据集X是由一个模型生成的，关于h的概率仅仅表示是由哪个模型来生成的这件事的不确定性。而本章要讲的混合模型是数据集中，不同的数据点可能由不同模型生成。看后面讲到的内容就明白了。首先看committes，committes是一大类，包括bo ...继续阅读 (93)

prml
发表于
2015-01-31 05:29:32

PRML读书会第十三章 Sequential Data

PRML读书会第十三章 Sequential Data主讲人张巍（新浪微博:@张巍_ISCAS）软件所-张巍19:01:27我们开始吧，十三章是关于序列数据，现实中很多数据是有前后关系的，例如语音或者DNA序列，例子就不多举了，对于这类数据我们很自然会想到用马尔科夫链来建模：例如直接假设观测数据之间服从一阶马尔科夫链，这个假设显然太简单了，因为很多数据时明显有高阶相关性的，一个解决方法是用高阶马尔科夫链建模：但这样并不能完全解决问题：1、高阶马尔科夫模型参数太多；2、数据间的相关性仍然受阶数限制。一个好的解决方法，是引入一层隐变量，建立如下的模型：这里我们假设隐变量之间服从一阶马尔科夫链，观测变量由其对应的隐变量生成。从上图可以看出，隐变量是一阶的，但是观测变量之间是全相关的，今天我们主要讨论的就是上图中的模型。如果隐变量是离散的，我们称之为Hidden Markov Models；如果是连续的，我们称之为: Linear Dynamical Systems。现在我们先来看一下HMM ，从图中可以看出，要完成建模，我们需要指定一下几个分布：1、转移概率：2、马尔科夫链的初始概率：3、生成观测变量的概率(emission probabilities)：对于HMM，这里1和2我们已经假设成了离散分布，由隐变量Zn生成观测数据可以用混合高斯模型或者神经网络，书上的Zn是一个k维的布 ...继续阅读 (100)

prml
发表于
2015-01-31 04:49:12

PRML读书会第十二章 Continuous Latent Variables

PRML读书会第十二章 Continuous Latent Variables主讲人戴玮（新浪微博:@戴玮_CASIA）Wilbur_中博(1954123) 20:00:49我今天讲PRML的第十二章，连续隐变量。既然有连续隐变量，一定也有离散隐变量，那么离散隐变量是什么？我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型。它有一个K维二值隐变量z，不仅只能取0-1两个值，而且K维中只能有1维为1、其他维必须为0，表示我们观察到的x属于K类中的哪一类。显然，这里的隐变量z就是个离散隐变量。不过我们容易想到，隐变量未必像kmeans或GMM这种聚类算法那样，非此即彼、非白即黑，我们当然也可能在各个聚类或组成成分之间连续变化。而且很多情况下，连续变化都是更合理、更容易推广的。所以，我们这一章引入了连续隐变量。书中举了一个例子：从某张特定的手写数字图像，通过平移和旋转变换生成多张图像。虽然我们观察到的是整个图像像素的一个高维数据空间中的样本，但实际上只是由平移和旋转这三个隐变量产生的，这里的平移和旋转就是连续隐变量。还举了个石油流量的例子，是从两个隐变量经过测量得到12个观察变量，那里的两个隐变量也是连续的。一般来说，样本不会精确处在由隐变量表示的低维流形上，而是可能稍有偏差，这种偏差可视作噪声。噪声的来源各种各样，不是我们能把握的，一般只能统一把它们看成单一的噪声项来处理。最简单 ...继续阅读 (104)

prml
发表于
2015-01-31 04:40:38

PRML读书会第十一章 Sampling Methods

PRML读书会第十一章 Sampling Methods主讲人网络上的尼采（新浪微博:@Nietzsche_复杂网络机器学习）网络上的尼采(813394698) 9:05:00今天的主要内容：Markov Chain Monte Carlo，Metropolis-Hastings，Gibbs Sampling，Slice Sampling，Hybrid Monte Carlo。上一章讲到的平均场是统计物理学中常用的一种思想，将无法处理的复杂多体问题分解成可以处理的单体问题来近似，变分推断便是在平均场的假设约束下求泛函L(Q)极值的最优化问题，好处在于求解过程中可以推出精致的解析解。变分是从最优化的角度通过坐标上升法收敛到局部最优，这一章我们将通过计算从动力学角度见证Markov Chain Monte Carlo收敛到平稳分布。先说sampling的原因，因为统计学中经常会遇到对复杂的分布做加和与积分，这往往是intractable的。MCMC方法出现后贝叶斯方法才得以发展，因为在那之前对不可观测变量（包括隐变量和参数）后验分布积分非常困难，对于这个问题上一章变分用的解决办法是通过最优化方法寻找一个和不可观测变量后验分布p(Z|X)近似的分布，这一章我们看下sampling的解决方法，举个简单的例子：比如我们遇到这种形式，z是个连续随机变量，p(z)是它的分布，我们求f(z)的期 ...继续阅读 (77)