python-PyTesseract-将OCR限制为一组字符
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python-PyTesseract-将OCR限制为一组字符,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1420字,纯文字阅读大概需要3分钟。
内容图文
![python-PyTesseract-将OCR限制为一组字符](/upload/InfoBanner/zyjiaocheng/667/8d9e698aa0b544d2a015cd5d57c9e808.jpg)
我在pytesseract遇到麻烦了.我知道您可以使用命令行参数将tesseract限制为一组特定的字符:
tesseract input.tif output nobatch digits
我发现有人说他们可以在python中使用以下几行来限制tesseract:
import tesseract
ocr = tesseract.TessBaseAPI();
ocr.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)
ocr.SetVariable("tessedit_char_whitelist", "0123456789")
但这是用于使用tesseract API,而我正在使用pytesseract….最后,我还尝试了:
print(image_to_string(someimage, config='outputbase digits'))
但这不起作用,因为我仍然在输出中收到字母.这很奇怪,因为我正在使用以下代码,并且可以正常工作:
print(image_to_string(screen, config='-psm 10'))
PSM代表PageSegmentationMode,它使我可以将图像文件解析为单个字符.我不明白为什么这行得通,而之前的代码片段都是tesseract的命令行参数时却不起作用…
有人可以帮忙吗?我想将这两个选项与自定义单词列表一起使用(这是我在tesseract的config文件夹中创建的).
解决方法:
终于找到了解决方案,如果它可以帮助任何人…这是来自tesseract帮助页面:
Simplest invocation of tesseract :
tesseract imagename outputbase
我可以据此推断出正确的语法(实际上,我在堆栈溢出中发现的所有内容都在很大程度上指示了我错误的方向,可能是因为tesseract的版本不同).请记住,我正在使用tesseract 3.05(可在GitHub上使用Win安装程序)和pytesseract(从pip安装).
image_to_string(someimage, config='digits -psm 7')
正如我们在帮助页面上看到的那样,outputbase参数首先在文件名之后,在其他选项之前,这允许同时使用PSM&受限字符集.
来自tesseract帮助页面的所有命令行参数都可以在config变量中使用!
内容总结
以上是互联网集市为您收集整理的python-PyTesseract-将OCR限制为一组字符全部内容,希望文章能够帮你解决python-PyTesseract-将OCR限制为一组字符所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。