IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    Tesseract: 从图片提取文本

    toy发表于 2015-07-20 18:17:45
    love 0

    经常遇到同事要求排查故障 , 但却提供截图而不出示文本信息 。 为此 , 我考虑用 OCR(Optical Character Recognition, 光学字符识别 ) 技术从截图中将文本提取出来 。 通过试用和比较 , 我感觉 Tesseract 还不错 , 故在此略作推荐 。Tesseract 原由 HP 实验室开发 , 后来开源 , 它不仅支持许多语言 , 而且识别效果也不错 。

    安装 Tesseract

    在 Debian 上 , 可通过如下命令安装 Tesseract, 其他 Linux 发行版可通过自身的包管理器安装 :

    # apt-get install tesseract-ocr tesseract-ocr-chi-sim
    

    除了安装 Tesseract OCR 引擎之外 , 此处也安装了对简体中文语言的支持 。

    使用 Tesseract

    Tesseract 需在命令行下使用 , 假如我想要从 wb.jpeg 这张图片中提取文本 , 那么可以执行 :

    % tesseract wb.jpeg stdout -l chi_sim
    

    stdout 是将提取的文本打印到标准输出 , 如果文本较多则不妨将其放到文件中 ;-l 指定所用的语言 chi_sim( 简体中文 )。

    — Tesseract



沪ICP备19023445号-2号
友情链接