首页 / PYTHON / python-PyTesseract-将OCR限制为一组字符

python-PyTesseract-将OCR限制为一组字符

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-PyTesseract-将OCR限制为一组字符，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1420字，纯文字阅读大概需要3分钟。

内容图文

我在pytesseract遇到麻烦了.我知道您可以使用命令行参数将tesseract限制为一组特定的字符：

tesseract input.tif output nobatch digits

我发现有人说他们可以在python中使用以下几行来限制tesseract：

import tesseract
ocr = tesseract.TessBaseAPI();
ocr.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)
ocr.SetVariable("tessedit_char_whitelist", "0123456789")

但这是用于使用tesseract API,而我正在使用pytesseract….最后,我还尝试了：

print(image_to_string(someimage, config='outputbase digits'))

但这不起作用,因为我仍然在输出中收到字母.这很奇怪,因为我正在使用以下代码,并且可以正常工作：

print(image_to_string(screen, config='-psm 10'))

PSM代表PageSegmentationMode,它使我可以将图像文件解析为单个字符.我不明白为什么这行得通,而之前的代码片段都是tesseract的命令行参数时却不起作用…

有人可以帮忙吗？我想将这两个选项与自定义单词列表一起使用(这是我在tesseract的config文件夹中创建的).

解决方法:

终于找到了解决方案,如果它可以帮助任何人…这是来自tesseract帮助页面：

Simplest invocation of tesseract :

tesseract imagename outputbase

我可以据此推断出正确的语法(实际上,我在堆栈溢出中发现的所有内容都在很大程度上指示了我错误的方向,可能是因为tesseract的版本不同).请记住,我正在使用tesseract 3.05(可在GitHub上使用Win安装程序)和pytesseract(从pip安装).

image_to_string(someimage, config='digits -psm 7')

正如我们在帮助页面上看到的那样,outputbase参数首先在文件名之后,在其他选项之前,这允许同时使用PSM&受限字符集.

来自tesseract帮助页面的所有命令行参数都可以在config变量中使用！

内容总结

以上是互联网集市为您收集整理的python-PyTesseract-将OCR限制为一组字符全部内容，希望文章能够帮你解决python-PyTesseract-将OCR限制为一组字符所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/666297.html

来源：【匿名】

【上一篇】python-如何区分与pandas数据框所有行中相同的列？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-PyTesseract-将OCR限制为一组字符】教程文章相关的互联网学习教程文章

python3 字符串相关函数【代码】

python版本 3.5#Author by Liguangbo#_*_ coding:utf-8 _*_str="i like study python, welcome to my python program\t."#首字母大写print(str.capitalize())#I like study python, welcome to my python program.#关键字在字符串中出现的次数print(str.count(" "))#8#打印100个字符，如果str不够，则用-代替，且字符str位于中间print(‘hello world‘.center(20,‘-‘))#----hello world-----#判断字符串是否以‘l’和‘.’开头结...

【python】字符串、16进制等数据处理

最近做一个socket server，需要接收组播报文，并进行分析处理。其中涉及的一个问题是，待发送的报文是字符串形式，类似“hello world”。从wireshark截取的报文看，都是16进制数据，以为必须转为该种类型才能发送，需要转换为16进制字符串，类似“0x\a00x\c30x\b4”等。但后来发现，直接发送数据也是ok的，应该是数据发送时自己会进行转码。不了解的时候，网上查了下，发现大家推荐用到的模块是binascii，查看help几个方法如下：FU...

python json形式的字符串解码还原为json【代码】

1#coding:utf8 2import demjson3‘‘‘这个方法可以很方便的把dict,list等json格式的数据4 编码成字符串5 和把字符串解码还原为json6 7 注意点:就是字符串是json形式的,但是类型是字符串8‘‘‘ 9 data = [ { ‘a‘ : 1, ‘b‘ : 2, ‘c‘ : 3, ‘d‘ : 4, ‘e‘ : 5 } ] 10 json = demjson.encode(data) 11 data2 = demjson.decode(json) 1213print type(data) 14print type(json) 15print type(data2) 16print json 17prin...

Python Codecademy 练习：去掉字符串中的元音字母【代码】

1def anti_vowel(text):2 out=[]3 mystring=list(text)4for i in mystring:5if i notin ["a","e","i","o","u","A","E","I","O","U"]:6 out.append(i)7print("".join(out))8 910 testing=input("请输入字符串：") 11 anti_vowel(testing) 第一次使用remove方法，直接删除list中的元音字母，但是调试时发现去除字母后，list元素的位置发生变化，再次遍历的时候可能会漏掉，于是使用append方法，将不是元音的字...

python 之字符串的常用方法【代码】【图】

split()函数：返回以指定的字符将字符串分割成多个元素的列表 1 my_str = ‘name is wangxiaoming‘ 2 3print(my_str.split()) #默认不写参数表示按空格符进行切割 4print(my_str.split(‘‘,1)) #数字1 表示切割一次 5 6""" 7运行结果8 9[‘name‘, ‘is‘, ‘wangxiaoming‘] 10[‘name‘, ‘is wangxiaoming‘]my_str = ‘name★is★wangxiaoming‘print(my_str.split(‘★‘)) #默认不写参数表示按空格符进行切割print(my_st...

python连接mysql获取数据字符串获取变量【代码】

python脚本中的变量经常会变动，所以考虑写到mysql里面如何获取mysql里面数据作为参数，参考如下脚本： #!/usr/bin/python # -*- coding: utf-8 -*- import MySQLdb # 打开数据库连接 db = MySQLdb.connect("3.12.5.1", "root", "root", "test", charset=‘utf8‘) # 使用cursor()方法获取操作游标 cursor = db.cursor() # 使用execute方法执行sql语句 cursor.execute("select media_source_dir from app_configs a where a.ip_ad...

Python字符串拼接的6种方法（转）【代码】

add by zhj: 对于多行字符串连接，第6种连接方法很方便，连接时不会添加额外的空格。原文：http://www.cnblogs.com/bigtreei/p/7892113.html1. 加号第一种，有编程经验的人，估计都知道很多语言里面是用加号连接两个字符串，Python里面也是如此直接用 “+” 来连接两个字符串；print ‘Python‘ + ‘Tab‘结果：PythonTab回到顶部2. 逗号第二种比较特殊，使用逗号连接两个字符串，如果两个字符串用“逗号”隔开，那么这两个字符串将...

Python格式化字符 %s %d %f

格式描述%% 百分号标记 #就是输出一个%%c 字符及其ASCII码%s 字符串%d 有符号整数(十进制)%u 无符号整数(十进制)%o 无符号整数(八进制)%x 无符号整数(十六进制)%X 无符号整数(十六进制大写字符)%e 浮点数字(科学计数法)%E 浮点数字(科学计数法，用E代替e)%f 浮点数字(用小数点符号)%g 浮点数字(根据值的大小采用%e或%f)%G 浮点数字(类似于%g)%p 指针(用十六进制打印值的内存地址)%n 存储输出字符的数量放进参数列表的下一个变量中...

[Python] 字符串拼接方法大 PK，及其要点总结【代码】

代码name = ‘中国人‘ num = 3print(‘我是‘ + name + "，今年有" + str(num) + "个愿望") print(‘我是%s，今年有%d个愿望‘%(name, num)) print(‘我是{name}，今年有{num}个愿望‘.format(num=num,name=name)) print(‘我是{}，今年有{}个愿望‘.format(name, num)) print(‘我是‘, name, ‘，今年有‘, num, ‘个愿望‘, sep = ‘‘) print(f‘我是{name}，今年有{num}个愿望‘) 执行结果我是中国人，今年有3个愿望我是中国...

python 字符串格式化—format【代码】

Python2.6 开始，新增了一种格式化字符串的函数 str.format()。使用起来简单方便，不会遇到使用%时候格式的选择问题。按照参数默认顺序>>> "yesday is {}, today is {}".format("saturday", "sunday") ‘yesday is saturday, today is sunday‘ >>>指定参数顺序>>> "yesday is {0}, today is {1}, good day is {0}".format("saturday", "sunday") ‘yesday is saturday, today is sunday, good day is saturday‘ >>>指定参数名称#...

Python 字符串，列表，字典，集合的常用方法【代码】

Python 字符串，列表，字典，集合的常用方法String 字符串常用方法# find 方法查询字符串，返回子串所在的位置的最左段的索引# a = ‘asdfghjkl‘ # print(‘find 方法‘) # print(a.find(‘asd‘)) # print(a.find(‘dfg‘, 5, 10)) # print(‘-‘*50)# join 方法是非常重要的字符串方法，属于split方法的逆方法。用来连接序列中的元素，元素皆为字符串# b = [‘1‘, ‘2‘, ‘3‘, ‘4‘] # print(‘join 方法‘) # print(‘...

Python 论字符串不变性

>>>‘abc‘ + ‘def‘‘abcdef‘Python分别为‘abc‘和‘def‘分配了空间，当进行连接操作时，Python自动为新的字符串‘abcdef‘分配了空间 >>>s = ‘abc‘>>>s = s + ‘def‘>>>s‘abcdef‘ 上面的例子中，看上去我们把‘abc‘赋给了s，然后在s的末尾添加了‘def‘。这样看起来字符串似乎是可变的其实不然，在"s +‘def‘"这个操作的时候，新建了一个新字符串，然后这个新的对象被赋给了s，原来的字符串‘abc‘被释放掉了我们可以...

Python基础（二）之数据类型和运算（2）——字符串【代码】

字符串基础Python 也提供了可以通过几种不同方式表示的字符串。它们可以用单引号 (‘...‘) 或双引号 ("...") 标识。\ 可以用来转义引号: >>> ‘spam eggs‘# single quotes‘spam eggs‘ >>> ‘doesn\‘t‘# use \‘ to escape the single quote..."doesn‘t" >>> "doesn‘t"# ...or use double quotes instead"doesn‘t" >>> ‘"Yes," he said.‘‘"Yes," he said.‘ >>> "\"Yes,\" he said."‘"Yes," he said.‘ >>> ‘"Isn\‘...

Python中字符串颜色【代码】

格式：\033[显示方式;前景色;背景色m说明：前景色背景色颜色 --------------------------------------- 30 40 黑色 31 41 红色 32 42 绿色 33 43 黄色 34 44 蓝色 35 45 紫红色 36 46 青蓝色 37...

python基础之二进制与字符编码、进制转换【代码】【图】

如果想理解进制与字符编码由来可参考python编程基础之字符编码二进制与字符编码计算机只认识0和1。ASCII表来表示符号和数字。下面对应的时ASCII字符参照表其中，‘A‘ 使用了8个位（bit）才能表示出来，在计算机他们叫一个字节（byte）0 1 0 0 0 0 0 1 1024 byte = 1 kB ； 1024 kB = 1 MB ；1024 MB = 1 GB ； 1024 GB = 1 TB.二进制0，1 → ASCII → GB2312 → GB18...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-PyTesseract-将OCR限制为一组字符

python-PyTesseract-将OCR限制为一组字符

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-PyTesseract-将OCR限制为一组字符】教程文章相关的互联网学习教程文章

python3 字符串相关函数【代码】

【python】字符串、16进制等数据处理

python json形式的字符串解码还原为json【代码】

Python Codecademy 练习：去掉字符串中的元音字母【代码】

python 之字符串的常用方法【代码】【图】

python连接mysql获取数据字符串获取变量【代码】

Python字符串拼接的6种方法（转）【代码】

Python格式化字符 %s %d %f

[Python] 字符串拼接方法大 PK，及其要点总结【代码】

python 字符串格式化—format【代码】

Python 字符串，列表，字典，集合的常用方法【代码】

Python 论字符串不变性

Python基础（二）之数据类型和运算（2）——字符串【代码】

Python中字符串颜色【代码】

python基础之二进制与字符编码、进制转换【代码】【图】

PYTHON - 相关标签

字符 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程