python正则基础入门篇-2

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python正则基础入门篇-2，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4455字，纯文字阅读大概需要7分钟。

内容图文

这篇写关于分组和断言的一些概念和基本使用规范。

分组的符号是"（）"一对括号，分组匹配的内容会分配到的每个括号里，一般会按照从左到右分配，1为第一个括号

#以一个例子简单熟悉下分组的作用

s='<div><a href="https//support.google.com/chrome/?p=ui_hotword_search" target="_blank">更多</a><p>dfsl</p></div>'
pattern1 = re.search(r'<a.*>(\w+)</a>',s).group()
pattern2 = re.search(r'<a.*>(\w+)</a>',s).group(0)
pattern3 = re.search(r'<a.*>(\w+)</a>',s).group(1)
pattern4 = re.search(r'<a.*>(\w+)</a>',s).groups()
print(pattern1)
print(pattern2)
print(pattern3)
print(pattern4)

#这里对应group(),默认会打印整个正则表达式
<a href="https//support.google.com/chrome/?p=ui_hotword_search" target="_blank">更多</a>
#这里对应group(0), 跟group()相同，都是打印整个正则
<a href="https//support.google.com/chrome/?p=ui_hotword_search" target="_blank">更多</a>
#这个就是分组1匹配到的内容
更多
#对应groups(),这个是将整个分组匹配到的内容输出成元组形式
('更多',)

熟悉了分组后，我们需要面对一个现实问题，就是分组量太多的话，无法快速定位到分组量，所以又引出一个自定义分组的功能

以(?P<组名>pattern)为分组格式，这样只用匹配组名就定位到该分组。

实际演练：

#提取Ip地址
s = "ip='230.192.168.78',version='1.0.0'"

#自定义了一个“G”的组
matcher = re.search(r"ip='(?P<G>\d+\.\d+\.\d+\.\d+).*",s)
#直接定位匹配
print(matcher.group('G'))
#out
230.192.168.78

加深对分组的理解：正则表达式中用"()"表示一个分组，然后你可以对这个分组进行操作，最常用的就是重复操作。

要注意的是，只有"()"才能定义组，"{}"用来定义重复操作

当用"()"定义一个正则表达式后，正则引擎会把这些"()"按照顺序编号，存入缓存。这样后续需要对组操作就可以直接引用，看到的"\1、\2"就是对之前的分组重复引用，值得注意

的是"\0"是正则字符串本身。

加深理解：

#利用交换字符串位置
s1 = "abc.def"
sb = re.sub(r'(\w+)\.(.*)',r'\2.\1',s1)
print(sb)

#利用分组后向引用,这样就可以直接在后面用\number引用，无需书写完整分组内容
#首先模拟不用后向引用
s2 = 'go go go'
pattern = r'(?P<name>\w+)\s+(?P=name)\s+(?P=name)'
mat = re.search(pattern,s2)
print(mat.group('name'))
print(mat.group(1))
# print(mat.group(2)) # 报错，因为只定义了一个组，后面是引用定义的，并没有新增
# print(mat.group(3)) # 同理
print(mat.groups())　 # 将匹配到的分组结果输出成一个元祖
print(mat.group(0))  # 这个不解释了，打印整个r'表达式'

　接下采用后向引用　

pattern1 = r'(?P<new>.+)\s\1\s\1'
mat2 = re.search(pattern1,s2)
print(mat2.groups())  #输出匹配的所有组
print(mat2.group())   #输出整个正则表达式Regular_expression
#output 输出结果很明显得到了，组的结果和整个正则
('go',)  
go go go

-------------------------------

接下来讨论断言，其实跟分组很像，但是用法上跟分组用法恰好相反，由于分组学问很多，我只写一些基本的

--前后肯定断言，基本格式：前肯（？= patt）、后肯（？<= patt）

一样，实例（注：前后肯定断言同时使用，后向需提前，后前包裹）

# 这里对长字符串中文本进行提取，前后定向正则规定在这个范围内匹配  
s = "/* hi! */this is girl /* shi is beautiful */ she have 168 cm"
partten =  r'(?<=/\*).*(?=\*/)'  # 这里必须加上"?"，否则会贪婪模式多匹配，无视前向断言。
print(re.findall(partten,s))
...
# output  贪婪
[' hi! */this is girl /* shi is beautiful ']

# output2 惰性
[' hi! ', ' shi is beautiful ']

--前后否定断言，基本格式: 前否(?! = patt) 后否 (?<!)

学习下：

#后否定断言实例，获取除了".txt"结尾的文件集
#这里用到了后向否定断言，否定结尾字符非txt。
f1 = 'aaa.txt'
partten = r'.*\..*$(?<!txt$)'
print(re.findall(partten,f1)   )
#output  因为f1是txt结尾，所以没有匹配到，返回空列表
[]

#前向否定断言匹配 开头非数字的文件集
f1 = 'aaa.txt'
# "?!"表示非,"\d+"表示至少一个数字,^()表示以之前的规则开头,整体理解:文件开头一个数字都没有的文件集
print(re.findall(r'^(?!\d+).*','1word.txt')) #这里"1"打头自然符合了前非的规则,被排除
print(re.findall(r'^(?!\d*).*',f1)) #这里区别于"+","*"至少0个数字,由于f1是字母开头(没有数字正好是0),被前否排除
print(re.findall(r'^(?!\d+).*',f1)) #这里区别于"*","+"至少一个数字,加前否成一个数字都没有的文件名,对应下面输出
#out 发现三个结果,值得仔细思考下
[]          
[]
['aaa.txt']

前后向否定断言确实有点绕，很烧脑，可能是本人逻辑思维能力问题，但是可以大致这样理解，就是前后否定断言总体逻辑是排除partten，就是除了的意思。可以这么理解。

# 提取不以数字开头和py结尾的文件
n = 'test.py'
m = 'test.txt'
print(re.findall(r'^(?!\d+).+\..*$(?<!py$)',n))
#output  由于前后断言必须满足才会输出,但是前向满足,后向不满足,因为py被后向排除
[]
print(re.findall(r'^(?!\d+).+\..*$(?<!py$)',m))
#out 很明显,前向否定断言否定至少有一个数字开头的文件,后否否定py结尾,test.txt都不包括,所以被匹配到
['test.txt']

整个断言分组基础就这么多内容，后续会对更复杂的断言进行练习。

参考：https://www.cnblogs.com/misswjr/p/9852574.html

内容总结

以上是互联网集市为您收集整理的python正则基础入门篇-2全部内容，希望文章能够帮你解决python正则基础入门篇-2所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/632382.html

来源：【匿名】

【上一篇】使用Java正则表达式批量提取文本信息【下一篇】正则表达式语法

更多 ►

【python正则基础入门篇-2】教程文章相关的互联网学习教程文章

我的正则入门，是起源于网上的一篇文章[1]，这篇文章由浅入深的阐述了正则使用的方法，我觉得是一个很好的入门材料，不过学成还是要靠个人，在使用的过程中，还是会不断地忘记，因此反反复复的阅读了这篇文章有四五遍，对于其中一些比较困难的知识点，甚至要用很久才能消化，但是只要能见坚持着看完，你会发现自己对于正则的运用能力就会显著提高。正则表达式：用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式...

PHP正则表达式基础入门【图】

思维导图介绍正则表达式，大家在开发中应该是经常用到，现在很多开发语言都有正则表达式的应用，比如JavaScript、Java、.Net、PHP 等，我今天就把我对正则表达式的理解跟大家唠唠，不当之处，请多多指教！需要知道的术语——下面的术语你知道多少? Δ 定界符 Δ 字符域 Δ 修饰符 Δ 限定符 Δ 脱字符 Δ 通配符(正向预查，反向预查) Δ 反向引用 Δ 惰性匹配 Δ 注释 Δ 零字符宽定位我们什么时候使用正则表达式呢？...

Java正则表达式基础入门知识

众所周知，在程序开发中，难免会遇到需要匹配、查找、替换、判断字符串的情况发生，而这些情况有时又比较复杂，如果用纯编码方式解决，往往会浪费程序员的时间及精力。因此，学习及使用正则表达式，便成了解决这一矛盾的主要手段。大家都知道，正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多...

PHP 正则的使用基础入门

Python 基础入门 8_2正则表达式【代码】

"""re的其他函数：re.split(patter,str) 将str以patter的匹配形式切割并返回listre.finditer(patter,str) 作用和findall一样，但findall返回的是列表，finditer返回的是迭代器re.sub(pattern, repl, string, count=0, flags=0)re.subn(pattern, repl, string, count=0, flags=0)rep1：替换的字符串count: 替换次数功能，用正则表达式的规则匹配字符串，并以rep1进行指定次数替换区别：sub()返回字符串，subn()返回以替换完后...

【Linux 基础入门】（十二）正则表达式基础【代码】

文章目录1 介绍2 正则表达式2.1 举例2.2 基本语法3 grep 模式匹配命令3.1 基本操作3.2 使用正则表达式（1）使用基本正则表达式，BRE（2）使用扩展正则表达式，ERE4 sed 流编辑器4.1 sed 常用参数介绍4.2 sed 编辑器的执行命令（这里”执行“解释为名词）4.3 sed 操作举例5 awk 文本处理语言5.1 awk 介绍5.2 awk 的一些基础概念5.3 awk 命令基本格式5.4 awk 操作体验5.5 awk 常用的内置变量 1 介绍内容正则表达式本身的内容很多，这...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...java网页爬虫正则表达式 java-检查字符串是否仅包含字母空格和引...python 正则表达式与JSON-JSON

首页 / 正则 / python正则基础入门篇-2

python正则基础入门篇-2

内容导读

内容图文

内容总结

内容备注

内容手机端

【python正则基础入门篇-2】教程文章相关的互联网学习教程文章

PHP 正则的使用基础入门

PHP正则表达式基础入门【图】

Java正则表达式基础入门知识

PHP 正则的使用基础入门

Python 基础入门 8_2正则表达式【代码】

【Linux 基础入门】（十二）正则表达式基础【代码】

PYTHON - 相关标签

正则 - 相关标签

正则 - 最新教程

正则 - 最热教程