IT博客汇 | Selenium+PhantomJS（系列七：OCR的优化技巧）

Selenium+PhantomJS（系列七：OCR的优化技巧）

admin发表于 2017-04-11 07:59:55

Phantomjs可以选择元素区域截图，然后可以利用OCR做验证码识别，或做一些图形图像分析，等等。OCR引擎推荐tesseract。中文识别库下载：https://codeload.github.com/tesseract-ocr/tessdata/zip/master，另外tesseract支持字库训练，可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。

优化技巧一：

1、网页按照比例放大后，再截图：

driver.execute_script("document.body.style.zoom='500%'")

2、元素坐标同时需要按照比例放大：

img = img.crop((int(left)*5, int(top)*5, int(right)*5, int(bottom)*5))

优化技巧二：

利用Image库，对识别图片按行，按字体位移进行切割，识别率能达到%95左右！