IT博客汇 | [原]数学之路(机器学习实践指南)-文本挖掘与NLP(2)

[原]数学之路(机器学习实践指南)-文本挖掘与NLP(2)

u010255642发表于 2016-01-28 08:36:02

#--coding:utf-8--
#code by myhaspl 
from __future__ import unicode_literals
from __future__ import division




import nltk




import sys
sys.path.append("../")


import jieba




def cutstring(txt):
    #分词
    cutstr = jieba.cut(txt)
    result=" ".join(cutstr)
    return result
    
#读取文件
txtfileobject = open('test1.txt','r')


try:
   filestr = txtfileobject.read( )
finally:
   txtfileobject.close( )
 
cutstr=cutstring(filestr)
tokenstr=nltk.word_tokenize(cutstr)


fdist1=nltk.FreqDist(tokenstr)
#只出现了一次的低频词 
print "----只出现了一次的低频词-----"
for word in fdist1.hapaxes():
    print word,
#找出文本中的长词 
print
print "----文本中的长词-----"
for word in [w for w in set(tokenstr) if len(w)>3]:
    print word,

本博客所有内容是原创，如果转载请注明来源

----只出现了一次的低频词-----
分析相媲美这么出来再而万美元迅速该项具有察觉启发用来仿生很难东西考克斯高级到高智能 · 团队方法希望亿算法再次情报机构情况汽车科学入侵运用 1.84 拨给智能网络擅长只是必须其约合时候系助理逆向需要媒体报道接下来类似视觉规模进行国外认出来以及人工智能为了赋予终极目标技术聪明计划 Cox 越来越一点做到计算机科学就算项目等皮层情报研究如今 David 培养不然近日也媲美一项从而读取可以只系统获得 CBS 而已人民币制造它训练上哺乳动物几次 2800 价值出色资金计划署创新天生见到千次之后图案头着手去看教授这一说道超越保持受解决其它这是戴维基因组为何都领导更加神经元脑科学中心 IARPA 有限科学家驾驶于单是经费则过程基本准则中一半核磁共振图像人员怎样难又目的迟早会美国正挑战称用于
----文本中的长词-----
情报机构 1.84 媒体报道人工智能终极目标计算机科学情报研究 David 计算机系统哺乳动物 2800 哈佛大学 IARPA 基本准则核磁共振 SEAS 应用科学生物学系

[原]数学之路(机器学习实践指南)-文本挖掘与NLP(2)

本博客所有内容是原创，如果转载请注明来源

http://blog.csdn.net/myhaspl/