发布时间:2019-08-26 07:21:34编辑:auto阅读(2003)
http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html
Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用Anaconda.
from pytesser.pytesser import image_to_string from PIL import * import Image import ImageEnhance image = Image.open(r"D:\workstation\driving_licence.jpg") #使用ImageEnhance可以增强图片的识别率 enhancer = ImageEnhance.Contrast(image) image_enhancer = enhancer.enhance(4) print image_to_string(image_enhancer)
tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识
下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载之后进行安装,不再演示。
在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是driving_license.jpg
然后运行:tesseract driving_license.jpg result
会把driving_license.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好,要下载一个中文包:https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了
问题一的解决链接:
其实就是下载一个兼容 python2.7
Pillow-2.1.0.win-amd64-py2.7.exe
Python Error in image_to_string
上一篇: python中取余%
下一篇: ubuntu16.04升级python2
48863
47925
38705
35857
30283
27035
26068
20901
20697
19063
498°
593°
603°
605°
584°
570°
633°
708°
827°
927°