Python之正则表达式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python之正则表达式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6036字，纯文字阅读大概需要9分钟。

内容图文

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

实例

打开开源中国提供的正则表达式测试工具 http://tool.oschina.net/regex/，输入待匹配的文本，然后选择常用的正则表达式，就可以得出相应的匹配结果了

Python之正则表达式 - 文章图片

在网页右侧选择“匹配Email地址”，就可以看到下方出现了文本中的E-mail。如果选择“匹配网址URL”，就可以看到下方出现了文本中的URL 。其实，这里就是用了正则表达式匹配，也就是用一定的规则将特定的文本提取出来。

对于URL来说，可以用下面的正则表达式匹配：

[a-zA-z]+://[^\s]*

这个正则表达式看上去是乱糟糟的一团，其实不然，这里面都是有特定的语法规则的。比如，a-z代表匹配任意的小写字母，\s表示匹配任意的空白字符，*就代表匹配前面的字符任意多个，这一长串的正则表达式就是这么多匹配规则的组合。

match()

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none .

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

pattern匹配的正则表达式，string要匹配的字符串，flags标志位用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

Python之正则表达式 - 文章图片

开头的^是匹配字符串的开头，也就是以Hello开头；然后\s匹配空白字符，用来匹配目标字符串的空格；\d匹配数字，3个\d匹配123；然后再写1个\s匹配空格；后面还有4567，我们其实可以依然用4个\d来匹配，但是这么写比较烦琐，所以后面可以跟{4}以代表匹配前面的规则4次，也就是匹配4个数字；然后后面再紧接1个空白字符，最后\w{10}匹配10个字母及下划线。

还可以使用()括号将想提取的子字符串括起来。()实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依次对应每一个分组，调用group()方法传入分组的索引即可获取提取的结果。

Python之正则表达式 - 文章图片

通用匹配

刚才写的正则表达式其实比较复杂，出现空白字符我们就写\s匹配，出现数字就用\d匹配，这样的工作量非常大。其实完全没必要这么做，因为还有一个万能匹配可以用，那就是.*（点星）。其中.（点）可以匹配任意字符（除换行符），*（星）代表匹配前面的字符无限次，所以它们组合在一起就可以匹配任意字符了。有了它，就不用挨个字符地匹配了。

Python之正则表达式 - 文章图片

因此，可以使用.*简化正则表达式的书写。

贪婪与非贪婪

Python之正则表达式 - 文章图片

并没有匹配到1234567，在贪婪匹配下，.*会匹配尽可能多的字符。正则表达式中.*后面是\d+，也就是至少一个数字，并没有指定具体多少个数字，因此，.*就尽可能匹配多的字符，这里就把123456匹配了，给\d+留下一个可满足条件的数字7，最后得到的内容就只有数字7了。

非贪婪匹配的写法是.*?，多了一个?，

Python之正则表达式 - 文章图片

所以说，在做匹配的时候，字符串中间尽量使用非贪婪匹配，也就是用.*?来代替.*，以免出现匹配结果缺失的情况。

注意：

如果匹配的结果在字符串结尾，.*?就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符

修饰符

Python之正则表达式 - 文章图片

因为\.匹配的是除换行符之外的任意字符，当遇到换行符时，.*?就不能匹配了，所以导致匹配失败。这里只需加一个修饰符re.S，即可修正这个错误

Python之正则表达式 - 文章图片

这个re.S在网页匹配中经常用到。因为HTML节点经常会有换行，加上它，就可以匹配节点与节点之间的换行了。

search()

search()，它在匹配时会扫描整个字符串，然后返回第一个成功匹配的结果。也就是说，正则表达式可以是字符串的一部分，在匹配时，search()方法会依次扫描字符串，直到找到第一个符合规则的字符串，然后返回匹配内容，如果搜索完了还没有找到，就返回None

为了匹配方便，我们可以尽量使用search()方法。

Python之正则表达式 - 文章图片

import re


html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''


result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

findall()

前面介绍了search()方法的用法，它可以返回匹配正则表达式的第一个内容，但是如果想要获取匹配正则表达式的所有内容，那该怎么办呢？这时就要借助findall()方法了。该方法会搜索整个字符串，然后返回匹配正则表达式的所有内容。

还是上面的HTML文本，如果想获取所有a节点的超链接、歌手和歌名，就可以将search()方法换成findall()方法。如果有返回结果的话，就是列表类型，所以需要遍历一下来依次获取每组内容

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

Python之正则表达式 - 文章图片

sub()

除了使用正则表达式提取信息外，有时候还需要借助它来修改文本。比如，想要把一串文本中的所有数字都去掉，如果只用字符串的replace()方法，那就太烦琐了，这时可以借助sub()方法

Python之正则表达式 - 文章图片

compile()

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

常用的匹配规则

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[...]	用来表示一组字符，单独列出，比如[amk]匹配a、m或k
[^...]	不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面的表达式
{n, m}	匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组

re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

re.split

split 方法按照能够匹配的子串将字符串分割后返回列表

修饰符

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

有些功能不够详细，后续补充......

内容总结

以上是互联网集市为您收集整理的Python之正则表达式全部内容，希望文章能够帮你解决Python之正则表达式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/638150.html

来源：【匿名】

【上一篇】00 09Java高级之正则表达式【下一篇】正则表达式语法

更多 ►

【Python之正则表达式】教程文章相关的互联网学习教程文章

Js代码 <script type="text/javascript"> function validate(){ var reg = new RegExp("^[0-9]*$"); var obj = document.getElementById("name"); if(!reg.test(obj.value)){ alert("请输入数字!"); } if(!/^[0-9]*$/.test(obj.value)){ alert("请输入数字!"); } } </script> 验证数字的正则表达式集验证数字：^[0-9]*$ 验证n位的数字：^\d{n}$ 验证至少n位数...

javascript基础---正则表达式和字符串，数组

一、正则表达式1.正则表达式的创建方法var re=/abc/;var re=new RegExp("abc")var re=new RegExp(/abc/);2.正则表达式语法 2.1简单语法 c表示一个或者多个普通字符 {n}:表示匹配的次数 {n,}:表示匹配的次数》=n {n,m}:表示匹配的次数》n,<m \:表示转义的次数 ^:表示匹配输入的字符串的开始位置（在被匹配的字符串的开始部分来匹配） $:表示匹配输入字符串的结束位置（在被匹配的字符串的结束部分...

正则表达式基本概念

1. 分组 () 包裹的就是分组，可以得到结果，或者进行交换等整体操作2. 捕获 () 分组默认就是捕获组，(?:) 加上?:，就是非捕获组，只参与匹配，整体结果中会存在，消耗字符，分组不会在结果中，节约性能3. 环视 (?=) (?!) (?<=) (?<!) 有4种环视，分别可以正向和反向，匹配对应字符，字符只是参与匹配，整体结果中不出现，不消耗字符，分组不会出现在结果中4. 贪婪默认按符合的最长字符串匹配，就是贪婪模式。如果要换成非贪婪，只...

练习 : 正则表达式【代码】

一. 编程题1.写一个正则表达式判断一个字符串是否是ip地址规则：一个ip地址由4个数字组成，每个数字之间用.连接。每个数字的大小是0-255 255.189.10.37 正确 256.189.89.9 错误re_str1 = r'(((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))\.){3}((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))' while True:ip = input('请输入IP:')result = re.fullmatch(re_str1, ip)# print(result)if result:print('正确')else:pr...

正则表达式验证问题

<!DOCTYPE html><html><body><p>用户名正则表达式，4到16位（字母，数字，下滑线，减号）</p><p id="demo"></p><form action="" method="get"> <p>用户名: <input type="text" name="fname" required></p> <button onclick="myFunction1()">疯狂点我</button> <p>密码强度，最少6位，包括至少1个大写字母，1个小写字母，1个数字，1个特殊字符</p> <p>密码: <input type="password" name="lname" required></p> <button oncl...

JavaScript引用类型之RegExp类型(正则表达式)【代码】

ECMAScript中使用RegExp来支持正则表达式。使用下面类似Perl的语法,就可以创建一个正则表达式。var expression=/pattern/flags;如上代码：pattern ---pattern部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。falgs ---每个正则表达式都可带有一个或多个标志(flags),用于标明正则表达式的行为;以下是正则表达式的匹配模式所支持的3个标志:g : 表示全局模式,即模式将被应用于所...

linux正则表达式和正则表达式的一些命令

正则表达式是处理一批繁杂的数据，做到快速搜索，快速匹配，快速替换删除等功能的一种需求。常用正则表达式的命令有grep，sed，awk（三剑客）vi，egrep。其中egrep和awk还支持扩展的正则表达式。下面先介绍一下这些命令。vi和vim在以后介绍。 grep： -v：排除匹配内容。 -i：忽略大小写。 -o：只输出匹配内容。 -n：在行首显示行号。 -e:扩展的正则表达式（=egrep）。 ...

Python 正则表达式验证是否为素数

CODE:import rewhile True:number = int(input('Input number (0 to quit): '))if number == 0:breaksubject = ''.join([str((1)) for a in range(number)])reobj = re.compile(r"^1?$|^(11+?)\1+$")if reobj.search(subject):print "number %s is not prime number!" % numberelse:print "number %s is a prime number!" % number RESULT: Input number (0 to quit): 8 number 8 is not prime number! Input number (0 to quit): ...

js正则表达式语法[转]

1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例1：表达式 "c"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："c"；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）举例2：表达式 "bcd"，在匹配字符串...

正则表达式之数据验证与文本替换

一、数据验证用户名正则：4到16位（字母数字下划线减号）；密码强度正则：最少6位，包括至少1个，大写字母，1个小写字母，1个数字，1个特殊字符；EMAIL正则：；身份证号正则：；一、文本替换Paul ,paula ,paul ,spaulpaul replace Ringo；原文：https://www.cnblogs.com/abcdecsf/p/9866653.html

正则表达式【图】

正则表达式即另一种表单校验方法.RegExp对象是Regula Expression(正则表达式)的缩写,其作用是对字符串执行模式匹配.如:验证电子邮件地址,电话号码等字符串.1.定义正则表达式定义正则表达式有两种构造形式:普通方式;构造函数方式. a.普通方式: 语法: var reg = /表达式/(附加参数) (注:表达式-使用某些特殊字符来代表特殊的规则附加参数-用来扩展表达式的含义,主要包括三个参数 ☆ g-代表可以...

vim 使用正则表达式【代码】

任何一个现代编辑器或编程语言，如果不支持正则表达式，则可考虑立刻放弃，因为正则表达式不仅仅只是高效，还有点身份地位象征的意味。正则表达式指使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。如果用vi而不懂正则表达式，则等于根本不会用。正则表达式是vi处理文本最有力的武器，稍微上点“档次”的编辑器或语言都支持正则表达式。花点时间学习正则表达式是跟普通程序员拉开距离的捷径。正则表达式至少可以做到...

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式不是java的东西，它是独立的一套体系，它可以描述字符串的规则，格式上的规则，通用匹配。java写了一套库来支持正则表达式，其他的语言也可以使用正则表达式，所以不是java的专利。Java核心APIJava SE 01 day02 ****************************************************************************API接受。开发工具：Ctrl+F 查找Regular expressions正则表达式Find：String（最简单的正则，字符串）Case sensitive大小写严...

正则表达式

正则表达式正则表达式的基础知识原子普通字符 “yue”即为三个原子y u e非打印字符原子表 [xyz]中xyz可以匹配[^xyz]除了xzy都可以匹配通用字符 \w \W \d \D \s \S元字符常见的元字符任意匹配元字符边界限制元字符限定符模式选择符模式单元模式修正贪婪模式与懒惰模式正则表达式常见函数re.match()函数从源字符开头开始检索re.search() 从全文检索全局匹配函数 re.compile()对正则表达式预编译编译后，使用findall()全部找出re....

shell下正则表达式与其工具grep【代码】【图】

一.grep相关知识1.grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。2.grep工作原理 grep有两种模式：Basic和Extend模式。在Basic模式下，命令直接grep ，其中的？、+、{}、|、()都被解释为普通字符，如果要使用其的特殊意义，就必须对其用转义字符进行转义。在Extend模式...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...java网页爬虫正则表达式 java-检查字符串是否仅包含字母空格和引...python 正则表达式与JSON-JSON

首页 / 正则 / Python之正则表达式

Python之正则表达式

内容导读

内容图文

实例

match()

修饰符

search()

findall()

sub()

compile()

常用的匹配规则

re.finditer

re.split

修饰符

内容总结

内容备注

内容手机端

【Python之正则表达式】教程文章相关的互联网学习教程文章

JS正则表达式验证数字非常全【图】

javascript基础---正则表达式和字符串，数组

正则表达式基本概念

练习 : 正则表达式【代码】

正则表达式验证问题

JavaScript引用类型之RegExp类型(正则表达式)【代码】

linux正则表达式和正则表达式的一些命令

Python 正则表达式验证是否为素数

js正则表达式语法[转]

正则表达式之数据验证与文本替换

正则表达式【图】

vim 使用正则表达式【代码】

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式

shell下正则表达式与其工具grep【代码】【图】

PYTHON - 相关标签

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程