python--re模块, 正则表达式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python--re模块, 正则表达式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4477字，纯文字阅读大概需要7分钟。

内容图文

正则表达式是对字符串操作的一种逻辑公式.我们一般使用正则表达式对字符串进行匹配和过滤.使用这则的优缺点:

有点:灵活,功能性强,逻辑性强

缺点: 上手男.一旦上手,会爱上这个东西

工具: 各大文本编辑器一般都由正则匹配功能. 我们可以去http://tool.chinaz.com/regex/ 在线使用工具进行测试

1. 正则表达式,匹配字符串

元字符

字符组很简单用[]括起来,在[]中出现的内容会被匹配,例如:[abc] 匹配a或b或c

如果字符组中的内容过多还可以使用-,

[a-zA-Z0-9] 匹配的是字母a-z或A-z或0-9中的任意一个

.      匹配除换行符以外的任意字符
\w     匹配字母或数字或下划线
\s     匹配任意的空白符
\d     匹配数字
\n     匹配一个换行符
\t     匹配一个制表符
\b     匹配一个单词的边界
^      匹配字符串的开始
&      匹配字符串的结尾
\W     匹配非字母或数字或下划线
\D     匹配非数字
\S     匹配非空白符
a|b    匹配字符a或字符b
()     匹配括号内的表达式,也表示一个组
[...]  匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符

量词

一次性匹配多个字符就要用到量词

*       重复0次或更多次
+       重复1次或更多次
?       重复0次或1次
{n}     重复n次
{n,}    重复n次或更多次
{n,m}   重复n到m次

惰性匹配和贪婪匹配

在量词中的 * , +, {} 都属于贪婪匹配,就是尽可能多的匹配到结果

.*?     尽可能少的匹配,表示惰性匹配

str: <div>胡辣汤</div>
reg: <.*>
结果: <div>胡辣汤</div>

str: <div>胡辣汤</div>
reg: <.*?>
结果:
<div>
</div>

str: <div>胡辣汤</div>
reg: <(div|/div*)?>
结果:
<div>
</div>

惰性匹配和贪婪匹配

贪婪
.* 尽可能多的匹配
.+

惰性:
.*?哈哈 尽可能少的匹配

分组:

使用括号()进行分组

转义:

在正则表达式中,有很多特殊意义的元字符,如果要在正则中匹配正常的\n而不是"换行符"就需要对"\"进行转义,太麻烦了,

所以我们就用到了r'\n'这个概念,为了打出 str ->' \n' ,此时的正则是r'\\n'就可以了

2. re 模块

在python中使用正则. re

(?P<name>正则) 用的时候直接 group("name")就可以了

1. search() 搜索. 搜索到第一个结果返回

search和match的区别: search查找. 找到了结果就返回. match. 从头开始匹配.

r = re.search("\d+","电话号码123456789")
print(r)  # <_sre.SRE_Match object; span=(4, 13), match='123456789'>
print(r.group())  # 123456789

2. match() 匹配. 收到一个结果返回. 从头开始匹配

r = re.match("\d+","电话号码123456789")
print(r)
print(r.group())

结果
<_sre.SRE_Match object; span=(0, 3), match='123'>
123

　　所以显示出match是从字符串开始进行匹配

r = re.match("\d+","12312电话号码123456789")
print(r)
print(r.group())

结果
<_sre.SRE_Match object; span=(0, 5), match='12312'>
12312

3. findall() 查找所有匹配结果

r = re.findall("\d+","电话号码123456789")
print(r)  # ['123456789']

4. finditer() 返回迭代器.

result = re.finditer(r"姓名:(?P<name>.*?), 爱好:(?P<hobby>.*?),", "姓名:小名, 爱好:女,")
for el in result:
    print(el.group("name"), el.group("hobby"))

结果
<callable_iterator object at 0x000002044EBDF2E8>
<callable_iterator object at 0x000002044EBDF2E8>
小名 女

5. compile() 编译

reg = re.compile(r'\d+')  # 加载了一段正则
lst = reg.findall("呵呵, 笨蛋才不去134呢.他要去1123了")
print(lst)

结果
['134', '1123']

6. group("name") 获取数据

result = re.finditer(r"姓名:(?P<name>.*?), 爱好:(?P<hobby>.*?),", "姓名:小名, 爱好:女,")
for el in result:
    print(el.group("name"), el.group("hobby"))

结果
<callable_iterator object at 0x000002044EBDF2E8>
<callable_iterator object at 0x000002044EBDF2E8>
小名 女

7. re.S 干掉 . 的换行

在网页源码中有许多空白, re.S就是为了去掉这些空白

# 爬取电影天堂
from urllib.request import urlopen

content = urlopen("https://www.dytt8.net/html/gndy/dyzz/20181219/57954.html").read().decode("gbk")
# print(content)

reg = r'<div id="Zoom">.*?片　　名(?P<name>.*?)<br />◎年　　代(?P<years>.*?)<br />.*?◎上映日期(?P<date>.*?)<br />'+ \
'.*?◎主　　演(?P<main>.*?)◎简　　介.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">'

it = re.finditer(reg, content, re.S) # re.S 去掉.里面的\n

for el in it:
    print(el.group("name"))
    print(el.group("years"))
    print(el.group("date"))
    print(el.group("main").replace("<br />　　　　　　", ", "))
    print(el.group("download"))

8. (?:) 把表达式从python中的正则分组变为正则表达式中的分组

lst = re.findall(r"a(?:\d+)c", "a123456c") # 把括号python中的分组变成了原来正则表达式中的分组
print(lst)

lst = re.findall(r"a(\d+)c", "a123456c") # 把括号python中的分组变成了原来正则表达式中的分组
print(lst)

结果
['a123456c']
['123456']

3. 其他操作

sub,替换目标字符串

ret = re.sub(r'\d+','__???__',"mike1446inn9988oeoeujt") # 把字符串中的数字替换成__???__
print(ret)  

结果
# mike__???__inn__???__oeoeujt

subn,替换目标字符串并返回为元组,并对替换的次数计数

ret = re.subn(r'\d+','__???__',"mike1446inn9988oeoeujt")
print(ret)

结果
('mike__???__inn__???__oeoeujt', 2)

正则中的split()

ret = re.split('[ab]','qqqqeafiefubdkksd')
print(ret)

结果
['qqqqe', 'fiefu', 'dkksd']

内容总结

以上是互联网集市为您收集整理的python--re模块, 正则表达式全部内容，希望文章能够帮你解决python--re模块, 正则表达式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/843904.html

来源：【匿名】

【上一篇】python 基础知正则表达式【下一篇】正则表达式语法

更多 ►

【python--re模块, 正则表达式】教程文章相关的互联网学习教程文章

Js代码 <script type="text/javascript"> function validate(){ var reg = new RegExp("^[0-9]*$"); var obj = document.getElementById("name"); if(!reg.test(obj.value)){ alert("请输入数字!"); } if(!/^[0-9]*$/.test(obj.value)){ alert("请输入数字!"); } } </script> 验证数字的正则表达式集验证数字：^[0-9]*$ 验证n位的数字：^\d{n}$ 验证至少n位数...

javascript基础---正则表达式和字符串，数组

一、正则表达式1.正则表达式的创建方法var re=/abc/;var re=new RegExp("abc")var re=new RegExp(/abc/);2.正则表达式语法 2.1简单语法 c表示一个或者多个普通字符 {n}:表示匹配的次数 {n,}:表示匹配的次数》=n {n,m}:表示匹配的次数》n,<m \:表示转义的次数 ^:表示匹配输入的字符串的开始位置（在被匹配的字符串的开始部分来匹配） $:表示匹配输入字符串的结束位置（在被匹配的字符串的结束部分...

正则表达式基本概念

1. 分组 () 包裹的就是分组，可以得到结果，或者进行交换等整体操作2. 捕获 () 分组默认就是捕获组，(?:) 加上?:，就是非捕获组，只参与匹配，整体结果中会存在，消耗字符，分组不会在结果中，节约性能3. 环视 (?=) (?!) (?<=) (?<!) 有4种环视，分别可以正向和反向，匹配对应字符，字符只是参与匹配，整体结果中不出现，不消耗字符，分组不会出现在结果中4. 贪婪默认按符合的最长字符串匹配，就是贪婪模式。如果要换成非贪婪，只...

练习 : 正则表达式【代码】

一. 编程题1.写一个正则表达式判断一个字符串是否是ip地址规则：一个ip地址由4个数字组成，每个数字之间用.连接。每个数字的大小是0-255 255.189.10.37 正确 256.189.89.9 错误re_str1 = r'(((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))\.){3}((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))' while True:ip = input('请输入IP:')result = re.fullmatch(re_str1, ip)# print(result)if result:print('正确')else:pr...

正则表达式验证问题

<!DOCTYPE html><html><body><p>用户名正则表达式，4到16位（字母，数字，下滑线，减号）</p><p id="demo"></p><form action="" method="get"> <p>用户名: <input type="text" name="fname" required></p> <button onclick="myFunction1()">疯狂点我</button> <p>密码强度，最少6位，包括至少1个大写字母，1个小写字母，1个数字，1个特殊字符</p> <p>密码: <input type="password" name="lname" required></p> <button oncl...

JavaScript引用类型之RegExp类型(正则表达式)【代码】

ECMAScript中使用RegExp来支持正则表达式。使用下面类似Perl的语法,就可以创建一个正则表达式。var expression=/pattern/flags;如上代码：pattern ---pattern部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。falgs ---每个正则表达式都可带有一个或多个标志(flags),用于标明正则表达式的行为;以下是正则表达式的匹配模式所支持的3个标志:g : 表示全局模式,即模式将被应用于所...

linux正则表达式和正则表达式的一些命令

正则表达式是处理一批繁杂的数据，做到快速搜索，快速匹配，快速替换删除等功能的一种需求。常用正则表达式的命令有grep，sed，awk（三剑客）vi，egrep。其中egrep和awk还支持扩展的正则表达式。下面先介绍一下这些命令。vi和vim在以后介绍。 grep： -v：排除匹配内容。 -i：忽略大小写。 -o：只输出匹配内容。 -n：在行首显示行号。 -e:扩展的正则表达式（=egrep）。 ...

Python 正则表达式验证是否为素数

CODE:import rewhile True:number = int(input('Input number (0 to quit): '))if number == 0:breaksubject = ''.join([str((1)) for a in range(number)])reobj = re.compile(r"^1?$|^(11+?)\1+$")if reobj.search(subject):print "number %s is not prime number!" % numberelse:print "number %s is a prime number!" % number RESULT: Input number (0 to quit): 8 number 8 is not prime number! Input number (0 to quit): ...

js正则表达式语法[转]

1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例1：表达式 "c"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："c"；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）举例2：表达式 "bcd"，在匹配字符串...

正则表达式之数据验证与文本替换

一、数据验证用户名正则：4到16位（字母数字下划线减号）；密码强度正则：最少6位，包括至少1个，大写字母，1个小写字母，1个数字，1个特殊字符；EMAIL正则：；身份证号正则：；一、文本替换Paul ,paula ,paul ,spaulpaul replace Ringo；原文：https://www.cnblogs.com/abcdecsf/p/9866653.html

正则表达式【图】

正则表达式即另一种表单校验方法.RegExp对象是Regula Expression(正则表达式)的缩写,其作用是对字符串执行模式匹配.如:验证电子邮件地址,电话号码等字符串.1.定义正则表达式定义正则表达式有两种构造形式:普通方式;构造函数方式. a.普通方式: 语法: var reg = /表达式/(附加参数) (注:表达式-使用某些特殊字符来代表特殊的规则附加参数-用来扩展表达式的含义,主要包括三个参数 ☆ g-代表可以...

vim 使用正则表达式【代码】

任何一个现代编辑器或编程语言，如果不支持正则表达式，则可考虑立刻放弃，因为正则表达式不仅仅只是高效，还有点身份地位象征的意味。正则表达式指使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。如果用vi而不懂正则表达式，则等于根本不会用。正则表达式是vi处理文本最有力的武器，稍微上点“档次”的编辑器或语言都支持正则表达式。花点时间学习正则表达式是跟普通程序员拉开距离的捷径。正则表达式至少可以做到...

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式不是java的东西，它是独立的一套体系，它可以描述字符串的规则，格式上的规则，通用匹配。java写了一套库来支持正则表达式，其他的语言也可以使用正则表达式，所以不是java的专利。Java核心APIJava SE 01 day02 ****************************************************************************API接受。开发工具：Ctrl+F 查找Regular expressions正则表达式Find：String（最简单的正则，字符串）Case sensitive大小写严...

正则表达式

正则表达式正则表达式的基础知识原子普通字符 “yue”即为三个原子y u e非打印字符原子表 [xyz]中xyz可以匹配[^xyz]除了xzy都可以匹配通用字符 \w \W \d \D \s \S元字符常见的元字符任意匹配元字符边界限制元字符限定符模式选择符模式单元模式修正贪婪模式与懒惰模式正则表达式常见函数re.match()函数从源字符开头开始检索re.search() 从全文检索全局匹配函数 re.compile()对正则表达式预编译编译后，使用findall()全部找出re....

shell下正则表达式与其工具grep【代码】【图】

一.grep相关知识1.grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。2.grep工作原理 grep有两种模式：Basic和Extend模式。在Basic模式下，命令直接grep ，其中的？、+、{}、|、()都被解释为普通字符，如果要使用其的特殊意义，就必须对其用转义字符进行转义。在Extend模式...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...java网页爬虫正则表达式 java-检查字符串是否仅包含字母空格和引...python 正则表达式与JSON-JSON

首页 / 正则 / python--re模块, 正则表达式

python--re模块, 正则表达式

内容导读

内容图文

内容总结

内容备注

内容手机端

【python--re模块, 正则表达式】教程文章相关的互联网学习教程文章

JS正则表达式验证数字非常全【图】

javascript基础---正则表达式和字符串，数组

正则表达式基本概念

练习 : 正则表达式【代码】

正则表达式验证问题

JavaScript引用类型之RegExp类型(正则表达式)【代码】

linux正则表达式和正则表达式的一些命令

Python 正则表达式验证是否为素数

js正则表达式语法[转]

正则表达式之数据验证与文本替换

正则表达式【图】

vim 使用正则表达式【代码】

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式

shell下正则表达式与其工具grep【代码】【图】

PYTHON - 相关标签

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程