IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    Selenium+PhantomJS(系列七:OCR的优化技巧)

    admin发表于 2017-04-11 07:59:55
    love 0

    Selenium+PhantomJS(系列七:OCR的优化技巧)

    Phantomjs可以选择元素区域截图,然后可以利用OCR做验证码识别,或做一些图形图像分析,等等。OCR引擎推荐tesseract。中文识别库下载:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,另外tesseract支持字库训练,可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。

    优化技巧一:

    1、网页按照比例放大后,再截图:

    driver.execute_script("document.body.style.zoom='500%'")

    2、元素坐标同时需要按照比例放大:

    img = img.crop((int(left)*5, int(top)*5, int(right)*5, int(bottom)*5))

    优化技巧二:

    利用Image库,对识别图片按行,按字体位移进行切割,识别率能达到%95左右!



沪ICP备19023445号-2号
友情链接