IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]数学之路(机器学习实践指南)-文本挖掘与NLP(1)

    u010255642发表于 2016-01-27 10:36:33
    love 0

    #encoding=utf-8
    #--coding:utf-8--
    #code by myhaspl http://blog.csdn.net/myhaspl
    from __future__ import print_function,unicode_literals
    
    import nltk
    import sys
    sys.path.append("../")
    
    import jieba
    from jieba import posseg
    
    def cutstrpos(txt):
        #分词+词性 http://blog.csdn.net/myhaspl
        cutstr = posseg.cut(txt)
        result=""
        for word, flag in cutstr:
            result+=word+"/"+flag+' '
        return result
    
    def cutstring(txt):
        #分词http://blog.csdn.net/myhaspl
        cutstr = jieba.cut(txt)
        result=" ".join(cutstr)
        return result
        
    #读取文件http://blog.csdn.net/myhaspl
    txtfileobject = open('test1.txt')
    textstr=""
    try:
       filestr = txtfileobject.read( )
    finally:
       txtfileobject.close( )
    
    
    #中文分词并标注词性http://blog.csdn.net/myhaspl
    posstr=cutstrpos(filestr)
    strtag=[nltk.tag.str2tuple(word) for word in posstr.split()]
    for word,tag in strtag:
        print(word,tag)
        
    #进入语料库http://blog.csdn.net/myhaspl   
    cutstr=cutstring(filestr)
    mytext=nltk.text.Text(cutstr)
    print(mytext.concordance("出"))
    
    



    本博客所有内容是原创,如果转载请注明来源

    http://blog.csdn.net/myhaspl/


    据 P

    国外 S
    媒体报道 N
    , X
    美国 NS
    科学家 N
    近日 T
    获得 V
    了 UL
    2800 M
    万美元 M
    ( X
    约合 VN
    1.84 M
    亿 M
    人民币 N
    ) X
    的 UJ
    研究 VN
    经费 VN
    , X
    用于 V
    设计 VN
    一款 M
    能 V
    与 P
    人类 N
    识别 V
    图形 N
    速度 N
    相媲美 Z
    的 UJ
    计算机系统 N
    情报机构 N
    要 V
    处理 V
    的 UJ
    数据 N
    越来越 D
    多 M
    , X
    这些 R
    数据 N
    都 D
    必须 D
    进行 V
    迅速 AD
    分析 VN
    , X
    但 C
    问题 N
    是 V
    , X
    人类 N
    很 D
    难 A
    保持 V
    这样 R
    的 UJ
    工作 VN
    速度 N
    , X
    计算机 N
    的 UJ
    学习 V
    能力 N
    又 D
    很 D
    有限 A
    。 X
     X
    哈佛大学 NT
    的 UJ
    研究 VN
    团队 N
    如今 T
    正 D
    着手 V
    解决 V
    这 R
    一 M
    问题 N
    。 X
    他们 R
    希望 V
    能 V
    弄清 V
    , X
    是 V
    怎样 R
    的 UJ
    大脑 N
    活动 VN
    过程 N
    赋予 V
    了 UL
    人类 N
    识别 V
    图形 N
    的 UJ
    出色 V
    能力 N
    。 X
    他们 R
    的 UJ
    终极目标 N
    是 V
    , X
    研发 J
    出 V
    仿生 V
    计算机系统 N
    , X
    从而 C
    制造 V
    出 V
    更加 D
    聪明 A
    的 UJ
    人工智能 N
    系统 N
    。 X
    人类 N
    天生 N
    就 D
    擅长 V
    识别 V
    图案 N
    , X
    一个 M
    东西 NS
    只 D
    需要 V
    看 V
    几次 M
    , X
    再次 D
    见到 V
    的 UJ
    时候 N
    就 D
    能 V
    认出来 V
    了 UL
    。 X
    计算机 N
    则 D
    不然 C
    , X
    就算 V
    训练 VN
    上 F
    千次 M
    , X
    也 D
    很 D
    难 A
    培养 V
    出 V
    这样 R
    的 UJ
    能力 N
    。 X
    受 V
    人类 N
    大脑 N
    启发 V
    而 C
    研发 J
    出 V
    的 UJ
    智能 N
    计算机 N
    可以 C
    用来 V
    察觉 V
    网络 N
    入侵 V
    、 X
    读取 V
    核磁共振 L
    图像 N
    、 X
    甚至 D
    能 V
    驾驶 V
    汽车 N
    。 X
    据 P
    哈佛大学 NT
    工程 N
    与 P
    应用科学 L
    学院 N
    ( X
    SEAS ENG
    ) X
    称 V
    , X
    为了 P
    弄清 V
    为何 R
    人类 N
    和 C
    其它 R
    哺乳动物 N
    能够 V
    做到 V
    这 R
    一点 M
    , X
    研究 VN
    人员 N
    记录 N
    了 UL
    大脑 N
    视觉 N
    皮层 N
    的 UJ
    活动 VN
    情况 N
    , X
    并 C
    使用 V
    创新 V
    技术 N
    将 D
    它们 R
    之间 F
    的 UJ
    联系 N
    绘制 N
    出来 V
    。 X
    接下来 L
    , X
    他们 R
    再 D
    使用 V
    逆向 N
    工程 N
    处理 V
    这些 R
    数据 N
    , X
    并 C
    将 D
    其 R
    运用 VN
    到 V
    高智能 NR
    计算机 N
    算法 N
    的 UJ
    研发 J
    中 F
    去 V
    。 X
     X
    高级 B
    情报研究 N
    计划署 N
    ( X
    IARPA ENG
    ) X
    将 D
    资金 N
    拨给 V
    了 UL
    哈佛大学 NT
    工程 N
    与 P
    应用科学 L
    学院 N
    ( X
    SEAS ENG
    ) X
    、 X
    脑科学 N
    中心 N
    ( X
    CBS ENG
    ) X
    、 X
    以及 C
    分子 N
    与 P
    细胞 N
    生物学系 N
    。 X
    这 R
    是 V
    一个 M
    巨大 A
    的 UJ
    挑战 VN
    , X
    它 R
    的 UJ
    规模 N
    类似 V
    于 P
    人类 N
    基因组 N
    计划 N
    。 X
    该项 R
    目的 N
    领导 N
    、 X
    分子 N
    与 P
    细胞 N
    生物学系 N
    和 C
    计算机科学 N
    系 V
    的 UJ
    助理 VN
    教授 N
    戴维 NR
    · X
    考克斯 NRT
    ( X
    David ENG
     X
    Cox ENG
    ) X
    说道 V
    , X
    要 V
    记录 N
    这么 R
    多 M
    神经元 NZ
    的 UJ
    活动 VN
    、 X
    并 C
    绘制 N
    出 V
    它们 R
    之间 F
    的 UJ
    联系 N
    , X
    单 D
    是 V
    这 R
    一项 M
    工作 VN
    就 D
    具有 V
    巨大 A
    的 UJ
    科学 N
    价值 N
    , X
    但 C
    这 R
    只是 C
    我们 R
    项目 N
    的 UJ
    头 N
    一半 M
    而已 Y
    。 X
    等 U
    我们 R
    弄清 V
    了 UL
    大脑 N
    学习 V
    方法 N
    的 UJ
    基本准则 N
    之后 F
    , X
    我们 R
    迟早会 NR
    设计 VN
    出 V
    一款 M
    能够 V
    媲美 V
    、 X
    甚至 D
    超越 V
    人类 N
    的 UJ
    计算机系统 N
    。 X
    Displaying 9 of 9 matches:
     过 程   赋 予   了   人 类   识 别   图 形   的   出 色   能 力   。   他 们   的   终 极 目 标   是
     。   他 们   的   终 极 目 标   是   ,   研 发   出   仿 生   计 算 机 系 统   ,   从 而   制 造  
     出   仿 生   计 算 机 系 统   ,   从 而   制 造   出   更 加   聪 明   的   人 工 智 能   系 统   。
       ,   再 次   见 到   的   时 候   就   能   认 出 来   了   。   计 算 机   则   不 然   ,   就
     训 练   上   千 次   ,   也   很   难   培 养   出   这 样   的   能 力   。   受   人 类   大 脑
       。   受   人 类   大 脑   启 发   而   研 发   出   的   智 能   计 算 机   可 以   用 来   察 觉
     技 术   将   它 们   之 间   的   联 系   绘 制   出 来   。   接 下 来   ,   他 们   再   使 用  
       多   神 经 元   的   活 动   、   并   绘 制   出   它 们   之 间   的   联 系   ,   单 是   这
     本 准 则   之 后   ,   我 们   迟 早 会   设 计   出   一 款   能 够   媲 美   、   甚 至   超 越  


沪ICP备19023445号-2号
友情链接