最近看大家在微博上讨论分词。作为一个分词的同好,我也是有分词情怀的。我是12年毕业的NLP博士,课题就是分词,做课题期间读了几乎所有的主要文献,也自己重现过主流的方法,包括最大匹配,CRF,感知器,基于词的方法等等。遗憾的是自己没有写出高水平的paper。自己编写过一个分词系统,也就是现在的THUNLP分词开源版本的雏形。毕业前后参加SIGHAN2012年的分词评测,题目是切分微博语料,在17只队伍中获得第一名。毕业后到国内某商业搜索引擎公司也完成过一次分词模块的升级。直到一年半之前,决定暂时放弃分词的研究。
在此我也想跟大家分享一下我对分词的看法。
【分词不是一个独立的任务】。分词的确在很多地方被使用,但不像机器翻译、语音识别、聊天那样形成一个独立的产品。用户并不对其感知,他在所有使用场景中,都如同一个hidden variable,对最后效果的影响即使不是次要的,但一定也是间接的。这样一个特点就导致很多尴尬的问题。
不论从实践上还是理论上,【分词不存在完美的标准】。首先,如上所说,不同的任务所需要的分词结果可能是不一样的