使用Python优化字符串解析

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python优化字符串解析，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3751字，纯文字阅读大概需要6分钟。

内容图文

我的字符串格式为“ AB(AB(DDC)C)A(BAAC)DAB(ABC)”.

>每个字符代表一个元素(A,B,C或D).
>在右括号之间,每个元素都有一个子元素(可能不存在).

例如,具有“ AB(AB(DDC)C)A(BAAC)DA”,顶层将是AB(AB(DDC)C)A(BAAC)DA. [A,B,A,D,A],相应的子代将为[无,AB(DDC)C,BAAC,无,无].儿童也将被递归解析.

我在这里实现了一个解决方案：

def parse_string(string):

    i = 0                                                                       
    parsed = []                                                                 

    while i < len(string):                                                      
        if string[i] in ('A', 'B', 'C', 'D'):                                        
            parsed.append([string[i], None])                                    
            i += 1                                                              
        elif string[i] == '(':                                                  
            open_brakets = 1                                                    
            i += 1                                                              
            j = i                                                               
            while open_brakets:                                                 
                if string[j] == '(':                                            
                    open_brakets += 1                                           
                elif string[j] == ')':                   
                    open_brakets -= 1                    
                j += 1
            # Parse the children as well
            parsed[-1][-1] = parse_string(string[i:j - 1])       
            i = j                                                               
        else:                                                                   
            i += 1                                                              

    return parsed

print parse_string('AB(AB(DDC)C)A(BAAC)DAB(ABC)')

尽管我认为这有点丑陋,但我确信它不是很有效.

我想知道是否有一种方法可以使Python更清洁/更快/更优雅？允许使用外部库(特别是如果它们是用C！:-P编写的).

更新资料

其他应该起作用的字符串示例：

> ABC(DAB(ACB)BBB(AAA)ABC)DCB

通常,字符串的长度不受限制,子代的数目,长度,嵌套级别的数目均不受限制.

解决方法:

如果您还需要递归地解析内部括号：

def parse_tree(tree, string, start=0):
    index = start
    while index < len(string):
        current = string[index]
        if current == "(":
            child = tree[-1][1]
            child_parsed = parse_tree(child, string, index+1)
            index += child_parsed + 2 # adds 2 for the parentheses
        elif current == ")":
            break
        else:
            tree.append((current, []))
            index += 1
    return index - start
tree = []
print(parse_tree(tree, 'abc(abc(defg)d)de(f)gh'))

可以将其视为状态机.状态机接受节点定义,直到看到一个开放的括号,然后在其中将新的上下文(即递归函数调用)推送到解析堆栈以解析括号的内容.解析内部上下文时,右括号会弹出上下文.

如果您具有更复杂的语法,则可以更好地扩展的另一种选择是使用诸如PyParsing之类的解析库：

from pyparsing import OneOrMore, Optional, oneOf, alphas, Word, Group, Forward, Suppress, Dict

# define the grammar
nodes = Forward()
nodeName = oneOf(list(alphas))
nodeChildren = Suppress('(') + Group(nodes) + Suppress( ')')
node = Group(nodeName + Optional(nodeChildren))
nodes <<= OneOrMore(node)

print(nodes.parseString('abc(abc(defg)d)de(f)gh'))

像PyParsing这样的解析库允许您定义一个易于阅读的说明性语法.

原始非递归解析的答案：一种方法是使用itertools(累积仅来自Python 3.2及更高版本,itertools文档的旧版本为pure python implementation of accumulate).这样可以避免使用索引：

from itertools import takewhile, accumulate
PARENS_MAP = {'(': 1, ')': -1}
def parse_tree(tree, string):
    string = iter(string)
    while string:
        current = next(string)
        if current == "(":
            child = iter(string)
            child = ((c, PARENS_MAP.get(c, 0)) for c in child)
            child = accumulate(child, lambda a,b: (b[0], a[1]+b[1]))
            child = takewhile(lambda c: c[1] >= 0, child)
            child = (c[0] for c in child)
            tree[-1][1] = "".join(child)
        else:
            tree.append([current, None])
print(parse_tree('abc(abc(defg)d)de(f)gh'))

我不确定它是更快还是更优雅,但是我认为使用显式索引更容易编写,理解和修改.

内容总结

以上是互联网集市为您收集整理的使用Python优化字符串解析全部内容，希望文章能够帮你解决使用Python优化字符串解析所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/680202.html

来源：【匿名】

【上一篇】如何使用python脚本从文件夹检索文件路径到文本文件？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用Python优化字符串解析】教程文章相关的互联网学习教程文章

python字符串操作实方法，包括了几乎所有常用的python字符串操作，如字符串的替换、删除、截取、复制、连接、比较、查找、分割等1、去空格及特殊符号>>> s = ‘123 ‘>>> s.strip() # 去除所有空格‘123‘>>> s1 = ‘ 123 ‘>>> s1.rstrip() # 去除左边的空格‘ 123‘>>> s1.rstrip() # 去除右边的空格‘ 123‘ 2、连接字符串，‘+‘ 加号 >>> s1 = ‘aaa‘>>> s2 = ‘bbb‘>>> print(s1+s2)aaabbb3、查找字符 find>>> s1 = ‘...

python字符串内置函数【代码】

1、字符串定义：它是一个有序的字符的集合，用于存储和表示基本的文本信息，‘’或“”或‘’‘ ’‘’中间包含的内容称之为字符串特性：1.只能存放一个值2.不可变3.按照从左到右的顺序定义字符集合，下标从0开始顺序访问，有序补充：　　1.字符串的单引号和双引号都无法取消特殊字符的含义，如果想让引号内所有字符均取消特殊意义，在引号前面加r，如name＝r‘l\thf‘　　2.unicode字符串与r连用必需在r前面，如name＝ur‘l\thf‘...

4-Python数据类型之元组-字符串【代码】

目录1 元组概念1.1 元祖的特点1.2 元组的定义1.3 元组的访问1.4 元组的查询2 命名元组3 字符串3.1 字符串的基本操作3.1.1 字符串的访问3.1.2 字符串的拼接3.2 字符串分割3.3 字符串大小写3.4 字符串排版3.5 字符串修改3.6 字符串查找3.7 字符串判断3.8 字符串格式化3.8.1 C语言格式化3.8.2 format格式化3.8.3 对齐3.8.9 小数点与进制4 切片4.1 切片赋值1 元组概念????????元组（类型为 tuple）和列表十分相似,但是元组和字符串一样...

Windows下Python字符串编码问题【代码】

Python语言实际上有三种字符串，通常意义的字符串(str)，Unicode字符串(unicode)和抽象类basestring，其中basestring不可实例化。在Windows系统下的CPython解释器输入代码：>>> st1 = ‘中文‘>>> st1 ‘\xd6\xd0\xce\xc4‘>>> type(st1) <type ‘str‘> >>> st2 = st1.decode(‘gbk‘) >>> st2 u‘\u4e2d\u6587‘>>> type(st2) <type ‘unicode‘> >>> st3 = st2.encode(‘utf-8‘) >>> st3 ‘\xe4\xb8\xad\xe6\x96\x87‘>>> ty...

python字符串的含义

#!/usr/bin/python3name="my name is xiAngXiao"name2="alex"name3="my {name} is xiangxiao,and my {yeae} is"#print(name.capitalize())#将首字母都大写#print(name.center(50,"-"))#name放中间，两边加上-符号#print(name2.endswith(ex))#判断name2是否以ex结尾#print(name.expandtabs(tabsize=50))#将tab键转换成多少个空格#print(name.find("y"))#返回y的位置#print(name[name.find("y"):9])#从y的位置到9之前的所有字符#p...

(一)1-5Python数字和字符串

作业一、数字数据类型用于存储数值。它们是不可变数据类型。　　a = 3.0　　b = 2.5　　c = 2.4Python支持不同的数值类型　　1、init（有符号整数） - 它们通常被称为整数或整数。它们是没有小数点的正或负整数。　　2、float（浮点实数值） - 也称为浮点数，它们表示实数，并用小数点写整数和小数部分。数字类型转换Python可将包含混合类型的表达式内部的数字转换成用于评估求值的常用类型。有时需要从一个类型到另一个类型执行...

Python基础（数字,字符串方法）【代码】

数字:1#二进制转十进制2 a=‘100‘3 v=int(a,base=2) 4print(v)进制转换1#当前数字的二进制至少有多少位2 b=2 3 v2=b.bit_length() 4print(v2)数值二进制表示位数字符串:1#首字母大写2 a="kelvin"3 v=a.capitalize() 4print(v)首字母大写1#终极无敌‘大写‘变‘小写‘---->casefold2 b="KELVIN"3 v1=b.casefold() 4 v2=b.lower() 5print(v1) 6print(v2)大写转小写1#居中显示字符串2 c="kelvin"3 v3=c.center(50,"-") #第二个参数不...

python中时间戳，datetime 和时间字符串之间得转换【代码】

# datetime时间转为字符串def Changestr(datetime1): str1 = datetime1.strftime(‘%Y-%m-%d %H:%M:%S‘) return str1# 字符串时间转为时间戳def Changetime(str1): Unixtime = time.mktime(time.strptime(str1, ‘%Y-%m-%d %H:%M:%S‘)) return Unixtime# datetime时间转为时间戳def Changestamp(dt1): Unixtime = time.mktime(time.strptime(dt1.strftime(‘%Y-%m-%d %H:%M:%S‘), ‘%Y-%m-%d %H:%M:%S‘)) re...

python的字符串内建函数【代码】

python的字符串内建函数字符串方法是从python1.6到2.0慢慢加进来的——它们也被加到了Jython中。这些方法实现了string模块的大部分方法，如下表所示列出了目前字符串内建支持的方法，所有的方法都包含了对Unicode的支持，有一些甚至是专门用于Unicode的。方法描述 1 string.capitalize() #把字符串的第一个字符大写 2 string.center(width) #返回一个原字符串居中,并使用空格填充至长度 width 的新字符串 3 string.count(str, b...

python字符串format

#!/usr/bin/env pythonimport multiprocessingimport time# print "The time is {0}".format(time.ctime())# print time.ctime()# print "The time is {0}".format# print ‘this is {}‘.format(‘pangf‘)# print ‘that is {0},{1}‘.format(‘hello‘,‘world‘)# print ‘that is {1},{0},{2}‘.format(‘name‘,‘fdf‘,‘000‘)# print time.ctime()# print ‘that is {name}‘.format(name=‘pdbbb‘)def worker(interv):n...

Python - bytes与字符串的相互转化【代码】

直接上代码 1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3 4""" 5__title__ = 6__Time__ = 2020/2/21 15:567 8""" 9# bytes转字符串方式一10 b = b‘\xe9\x80\x86\xe7\x81\xab‘11 string = str(b, ‘utf-8‘) 12print(string) 1314# bytes转字符串方式二15 b = b‘\xe9\x80\x86\xe7\x81\xab‘16 string = b.decode() # 第一参数默认utf8，第二参数默认strict17print(string) 1819# bytes转字符串方式三20 b = b‘\xe9\x...

python基础1-字符串【代码】

数字，字符串，列表，布尔，元组，字典，集合（小知识点）变量名的命名规则？ #1. 变量名只能是字母、数字或下划线的任意组合#2. 变量名的第一个字符不能是数字#3. 关键字不能声明为变量名定义的方式：驼峰式：AgeOldboy=53下划线：age_oldboy=53常量：一般是用大写字母：AGE_OF_OLDBOY=54执行过程（重点！！！）python3 C:\test.py1、先启动python3.exe2、把C:\test.py从硬盘读入内存3、解释执行文件内容（识别python语法...

python 字符串操作【代码】

特性：不可修改　name.capitalize() 首字母大写 name.casefold() 大写全部变小写 name.center(50,"-") 输出 ‘---------------------Alex Li----------------------‘ name.count(‘lex‘) 统计 lex出现次数 name.encode() 将字符串编码成bytes格式 name.endswith("Li") 判断字符串是否以 Li结尾 "Alex\tLi".expandtabs(10) 输出‘Alex Li‘，将\t转换成多长的空格 name.find(‘A‘) 查找A,找到返回其索引，找不到...

010.Python字符串的格式化【代码】【图】

字符串的格式化顺序传参索引传参关键字传参容器类型传参(列表和元组){}相当于占位符1 顺序传参strvar = "他{}牺牲自己，{}出卖组织" res = strvar.format("宁愿","也不") print(res) res = strvar.format("白白","忘了") print(res)执行[root@node10 python]# python3 test.py他宁愿牺牲自己，也不出卖组织他白白牺牲自己，忘了出卖组织2 索引传参strvar = "他{1}牺牲自己，{0}出卖组织" res = strvar.format("宁愿","也不") prin...

python基础之字符串格式化【代码】

字符串格式化%s、%d、%f、%e、%g、fomart()方法%s 既能接受字符串，也能接受数字例子：print(‘%s‘%(1)) print(‘%s‘%(‘hello world‘)) %d 只能接受数字，若传入数字带小数，则只取整数例子：print(‘%d‘%(1.91)) %f 只能接受数字 %f ——保留小数点后面六位有效数字%.3f，保留3位小数位例子：print(‘%f‘ % (1)) # 默认保留6位小数 print(‘%.f‘ % (1.11)) # 保留0位小数 print(‘%.1f‘ % (1.11)) # 保留一位小数 p...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 使用Python优化字符串解析

使用Python优化字符串解析

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python优化字符串解析】教程文章相关的互联网学习教程文章

Python字符串笔录

python字符串内置函数【代码】

4-Python数据类型之元组-字符串【代码】

Windows下Python字符串编码问题【代码】

python字符串的含义

(一)1-5Python数字和字符串

Python基础（数字,字符串方法）【代码】

python中时间戳，datetime 和时间字符串之间得转换【代码】

python的字符串内建函数【代码】

python字符串format

Python - bytes与字符串的相互转化【代码】

python基础1-字符串【代码】

python 字符串操作【代码】

010.Python字符串的格式化【代码】【图】

python基础之字符串格式化【代码】

PYTHON - 相关标签

字符串 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程