IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]数学之路(机器学习实践指南)-文本挖掘与NLP(2)

    u010255642发表于 2016-01-28 08:36:02
    love 0
    #--coding:utf-8--
    #code by myhaspl 
    from __future__ import unicode_literals
    from __future__ import division
    
    
    
    
    import nltk
    
    
    
    
    import sys
    sys.path.append("../")
    
    
    import jieba
    
    
    
    
    def cutstring(txt):
        #分词
        cutstr = jieba.cut(txt)
        result=" ".join(cutstr)
        return result
        
    #读取文件
    txtfileobject = open('test1.txt','r')
    
    
    try:
       filestr = txtfileobject.read( )
    finally:
       txtfileobject.close( )
     
    cutstr=cutstring(filestr)
    tokenstr=nltk.word_tokenize(cutstr)
    
    
    fdist1=nltk.FreqDist(tokenstr)
    #只出现了一次的低频词 
    print "----只出现了一次的低频词-----"
    for word in fdist1.hapaxes():
        print word,
    #找出文本中的长词 
    print
    print "----文本中的长词-----"
    for word in [w for w in set(tokenstr) if len(w)>3]:
        print word,

    本博客所有内容是原创,如果转载请注明来源

    http://blog.csdn.net/myhaspl/


    ----只出现了一次的低频词-----
    分析 相媲美 这么 出来 再 而 万美元 迅速 该项 具有 察觉 启发 用来 仿生 很难 东西 考克斯 高级 到 高智能 · 团队 方法 希望 亿 算法 再次 情报机构 情况 汽车 科学 入侵 运用 1.84 拨给 智能 网络 擅长 只是 必须 其 约合 时候 系 助理 逆向 需要 媒体报道 接下来 类似 视觉 规模 进行 国外 认出来 以及 人工智能 为了 赋予 终极目标 技术 聪明 计划 Cox 越来越 一点 做到 计算机科学 就算 项目 等 皮层 情报研究 如今 David 培养 不然 近日 也 媲美 一项 从而 读取 可以 只 系统 获得 CBS 而已 人民币 制造 它 训练 上 哺乳动物 几次 2800 价值 出色 资金 计划署 创新 天生 见到 千次 之后 图案 头 着手 去 看 教授 这一 说道 超越 保持 受 解决 其它 这是 戴维 基因组 为何 都 领导 更加 神经元 脑科学 中心 IARPA 有限 科学家 驾驶 于 单是 经费 则 过程 基本准则 中 一半 核磁共振 图像 人员 怎样 难 又 目的 迟早会 美国 正 挑战 称 用于
    ----文本中的长词-----
    情报机构 1.84 媒体报道 人工智能 终极目标 计算机科学 情报研究 David 计算机系统 哺乳动物 2800 哈佛大学 IARPA 基本准则 核磁共振 SEAS 应用科学 生物学系



沪ICP备19023445号-2号
友情链接