昨天刚接到老大的需求,公司有一批名片,需要做数据统计,接完我就萌逼了,(名片统计屁啊),虽然嘴里碎碎念,但是我还是认真的翻百度,翻谷歌。
黄天不负苦心人,十分钟后,终于看到了一个老外的项目,叫tesseract-ocr. github地址:tesseract
然后用centos装了一下试试,效果不错,不过,这个毕竟是老外的项目,得看中文支持效果。
yum install tesseract
tesseract 1.jpg 1
输出文件为1.txt
然后我去截图了几张中华文字,然后
tesseract 1.jpg 1 -l chi_sim
chi_sim 是中文库,可以直接yum安装.
果然,一切好用的工具,到了中文这里就不太支持。
纠结的我,咋整呢?
只能继续google了,
突然发现一家牛逼的企业,做了好几个牛逼的产品
https://dev.camcard.com/developers/status
,除了这家的产品,还有百度的勉强可以用吧。
当然,如果图的质量不清晰,那就没有办法了 ,人工吧。
别的付费的接口遇到中文真是可怕啊可怕。
总结。机器还是不如人