虽然是愚人节,但是这个不是愚人节玩笑,最近花了一些时间在MeCab身上,越发喜欢这个来自岛国的开源分词系统,今天花了一些时间训练了一个更适用的模型和词典,打包提供给大家使用,因为数据和词典涉及到一些版权问题,所以打包文件里只是mecab用于发布的二进制词典和模型文件,目前在mac os和linux ubuntu系统下测试无误,其他系统请自行测试使用:链接:http://pan.baidu.com/s/1sjBfdXr密码: 8udf了解和安装mecab请参考:日文分词器 Mecab 文档用MeCab打造一套实用的中文分词系统使用前请按上述文档安装mecab,下载这个中文分词模型和词典之后解压,解压后得到一个mecab-chinese-data目录,执行:mecab -d mecab-chinese-data扬帆远东做与中国合作的先行扬帆 v,*,*,*,*,*,扬帆,*,*远东 ns,*,*,*,*,*,远东,*,*做 v,*,*,*,*,*,做,*,*与 p,*,*,*,*,*,与,*,*中国 ns,*,*,*,*,*,中国,*,*合作 v,*,*,*,*,*,合作,*,*的 u,*,*,*,*,*,的,*,*先行 vn,*,*,*,*,*,先行,*,*EOS上述第二列提供了词性标注结果。如果想得到单行的分词结果,可以这样执行:mecab -d ./mecab-chinese-d
...
继续阅读
(84)