首页 / 正则 / Python中的正则表达式

Python中的正则表达式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python中的正则表达式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3804字，纯文字阅读大概需要6分钟。

内容图文

Python中的正则表达式

概述

在 python 中：编码： unicode-->str 解码： str-->Unicode

在python中，编码函数是encode（），解码函数是decode（）。

【需要注意的一点是，如果我们调用str.encode(),这里涉及到一个隐士的类型转化，会现将str转化成unicode，才能进行编码，这也是不太容易理解的地方。所以，str.encode()实际上就等价于str.decode(sys.defaultencoding).encode().而sys.defaultencoding一般是ascii，它是不能用来编码中文字符的。】

各种编码方式

【 Python 中，不论是 Python 2.x 还是 Python 3.x 中，总体上说，字符都只有 2 大类：

一类是通用的 Unicode 字符；另一类是，（ unicode 被编码后的），某种编码类型的字符，比如 UTF-8 ， GBK 等等类型的字符】

ASCII (American Standard Code forInformation Interchange) ，是单字节编码，一个字节等于 8 位二进制数，所以单字节可以表示 256 个不同的字符，可以表示所有的英文字符和许多的控制符号。不过 ASCII 只用到了其中的一半（ \x80 以下）。

MBCS (Multi-Byte Character Set) , 这一类编码有很多种，其中就有 GBK ：为了表示其他语言的字符，采用双字节编码，并且兼容 ASCII ，采用的方式是：如果第一个字节是 \x80 以下，则仍然表示 ASCII 字符；而如果是 \x80 以上，则跟下一个字节一起（共两个字节）表示一个字符，然后跳过下一个字节，继续往下判断。

后来的后来·····人们为了方便统一了编码方式·· unicode

Unicode 的编码方式的标准用很多：【 UCS-2 ( 两个字节表示一个字符 ) 】【 UTF-8 （变长的，并且兼容 ASCII ， ASCII 字符使用 1 字节表示，其他符号用更多编码方式匹配）】

By the way : BOM (Byte Order Mark) 是一种标记，就是在我们打开记事本的时候，最开始读入的是什么编码，我们就按这种编码方式打开整个文本，这就是为什么我们不用在打开记事本的时候先选择编码方式··

str 是字节串，是它是 unicode 经过编码后的字节组成的序列。

例如 unicode 中的“水”字，经过 UTF-8 编码后得到的 str 为“ \xe6\xb0\xb4 ” len()==3

【 Python 中用中文字符串前面加上 u 表示这个字符串为 unicode 】

unicode 是字符串，对 str 进过正确解码可以获得 , 对于（ u “水”） len()==1

具体操作

"python 2.x 中，普通的，用引号括起来的字符，就是 str ；此时字符串的编码类型，对应着你的 Python 文件本身保存为何种编码有关，最常见的 Windows 平台中，默认用的是 GBK"

str->unicode : 需要解码的 str.decode( 解码方式【例如： ‘UTF-8‘ 】 )

unicode->str ：先声明一个 Unicode 字符 unicodechar ，例如【 u ‘水’】， unicodechar.encode( 编码对应的方式【例如： ‘UTF-8‘ 】 )

by the way: 在 python 3.x ，具体操作有很大区别

字符码的声明：源代码文件中，如果有用到非 ASCII 字符，则需要在文件头部进行字符编码的声明，如下：

#-*- coding: UTF-8 -*-

【实际上 Python 只检查 # 、 coding 和编码字符串，其他的字符都是为了美观加上的。另外， Python 中可用的字符编码有很多，并且还有许多别名，还不区分大小写，比如 UTF-8 可以写成 u8 。】

关于文件操作

内置的 open() 方法打开文件时， read() 读取的是 str

write() 写入时，如果参数是 unicode ，则需要使用你希望写入的编码进行 encode() ，如果是其他编码格式的 str ，则需要先用该 str 的编码进行 decode() ，转成 unicode 后再使用写入的编码进行 encode() 。

如果直接将 unicode 作为参数传入 write() 方法， Python 将先使用源代码文件声明的字符编码进行编码然后写入。

另外，模块 codecs 提供了一个 open() 方法，可以指定一个编码打开文件，使用这个方法打开的文件读取返回的将是 unicode 。写入时，如果参数是 unicode ，则使用 open() 时指定的编码进行编码后写入；如果是 str ，则先根据源代码文件声明的字符编码，解码成 unicode 后再进行前述操作。相对内置的 open() 来说，这个方法比较不容易在编码上出现问题。

Tips:

1. 使用字符编码声明，并且同一工程中的所有源代码文件使用相同的字符编码声明

2. 抛弃 str ，全部使用 unicode

深入

正因为中文字符需要多个字节来表示，常见的正则表达式的文档就有可能无法覆盖这种情况。比如常见的资料都说，点号『.』可以匹配“除换行符\n之外的任意字符”，但这可能只适用于“单字节字符”

re.search(‘^.$‘, ‘发‘) == None #True

之所以会出现这种情况，是因为正则表达式无法正确将多个字节识别为“单个字符”

如果你细心就会发现，在Python 2.x中，我们指定的字符串使用Unicode编码，而文档里说了，正则表达式也可以指定Unicode模式的

正则表达式的操作可以简要概括为“用正则表达式去匹配字符串”，它涉及两个对象：正则表达式和字符串。

对字符串来说，如果没有设定Unicode模式，则多字节字符很可能会拆开为多个单字节字符对待（虽然它们并不是合法的ascii字符），Python 2.x中就是如此，“发”字在没有设定Unicode编码时，变成了3个单字节字符构成的字符串，点号『.』只能匹配其中的单个“字符”。如果显式将正则表达式设定为Unicode字符串（也就是在 u‘发‘ ），则“发”字视为单个字符，点号可以匹配。

那么对应的，如果你在正则表达式的字符组里使用了中文字符，表示正则表达式的字符串，也应该设定为Unicode字符串，否则正则表达式会认为字符组里不是单个字符

>>> re.search(‘^[我]$‘, u‘我‘) == None # True

>>> re.search(u‘^[我]$‘, u‘我‘) == None # False

Python也可以指定正则表达式使用Unicode模式

不妨回头仔细想想你读过的文档，正则表达式中的『\d』和『\w』，都是如何解释的？或许你的第一反应是：『\d』等价于『[0-9]』，『\w』等价于『[0-9a-zA-Z_]』。因为有些文档说明了这种等价关系，有些文档却说：『\d』匹配数字字符，『\w』匹配单词字符。然而这只是针对ascii编码的规定，在Unicode编码中，全角数字０、１、２之类，应该也可以算“数字字符”，由『\d』匹配；中文的字符，应该也可以算“单词字符”，由『\w』匹配；同样的道理，中文的全角空格，应该也可以算作“空白字符”，由『\s』匹配。所以，如果你在Python中指定了正则表达式使用，『\d』、『\w』、『\s』就能匹配全角数字、中文字符、全角空格。

（字符均为全角）

>>> re.search(‘(?u)^\d$‘, u‘１‘) == None # True 

>>> re.search(‘(?u)^\w$‘, u‘发‘) == None # True 

>>> re.search(‘(?u)^\s‘, u‘ ‘) == None # True

如果上面的数字用半角，

        re.search(‘(?u)^\d$‘, u‘1‘) == None # False

参考博文：

        http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

        http://www.crifan.com/summary_python_string_encoding_decoding_difference_and_comparation_python_2_x_str_unicode_vs_python_3_x_bytes_str/

        http://www.infoq.com/cn/news/2011/02/regular-expressions-unicode/

原文：http://blog.csdn.net/yixiantian7/article/details/19677781

内容总结

以上是互联网集市为您收集整理的Python中的正则表达式全部内容，希望文章能够帮你解决Python中的正则表达式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1181632.html

来源：【匿名】

【上一篇】Java 常用正则表达式搜集ing 【下一篇】正则表达式语法

更多 ►

【Python中的正则表达式】教程文章相关的互联网学习教程文章

正则表达式排除某字符串的行【代码】

正则表达式排除某字符串的行 ^(?!.*trigger$".+"$).*$ 原文：https://www.cnblogs.com/wolbo/p/11353186.html

正则表达式基本语法

正则表达式是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”）。模式描述在搜索文本时要匹配的一个或多个字符串。1.正则表达式基本语法两个特殊的符号‘^‘和‘$‘。他们的作用是分别指出一个字符串的开始和结束。例子如下："^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）；"of despair$"：表示所以以"of despair"结尾的字符串；"^abc$"：表示开始和结尾都是"abc"的字符串——呵...

JS利用正则表达式替换字符串中的内容

//从字符串‘Is this a cat is‘中剪去‘is‘: var str=‘Is this a cat is‘; var subStr=new RegExp(‘is‘);//创建正则表达式对象 var result=str.replace(subStr,"");//把‘is‘替换为空字符串 console.log(result);//Is th a cat is var subStr=new RegExp(‘is‘,‘i‘);//创建正则表达式对象,不区分大小写 var result=str.replace(subStr,"");//把‘is‘替换为空字符串 console.log(result);//this a cat is va...

JS正则表达式验证是否为11位有效手机号码,【图】

https://blog.csdn.net/nongweiyilady/article/details/74007124 最近在做注册登陆页面，都要涉及到验证11位有效手机号码，这里贴出代码，希望能帮到有这个开发需求的朋友。[javascript] view plaincopyfunction isPoneAvailable($poneInput) { var myreg=/^[1][3,4,5,7,8][0-9]{9}$/; if (!myreg.test($poneInput.val())) { return false; } else { return true;...

常用的正则表达式总结

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。匹配中文字符的正则表达式： [\u4e00-\u9fa5]评注：匹配中文还真是个头疼的事，有了这个表达式就好办了匹配双字节字符(包括汉字在内)：[^\x00-\xff]评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）匹配空白行的正则表达式：\n\s*\r评注：可以用来删除空白行匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?...

java中常用的正则表达式及示例

转义字符想要匹配某些具体的特殊符号，比如+[.?^{|\，需要在前面加上一个转义字符\ 。比如通过 \. 去匹配.号。元字符：由于元字符一般会放在字符串中，所以需要转义，也就是\会变成 \\ 。. .可以匹配除换行符之外的任何单字符。比如.*表示任意个非换行符\n的字符。而.l+.则表示以任意非\n开始，中间包含至少一个l字符，并且以任意非\n字符结束。^和$ ^匹配字符串的开始位置。而$匹配字符串的结尾位置。^cat : 字符串以c开头紧接着...

js正则表达式

概念正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。简介正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字...

VBS教程：正则表达式简介 -字符匹配【代码】

字符匹配句点 (.) 匹配一个字符串中任何单个的打印或非打印字符，除了换行符 (\n) 之外。下面的 Visual Basic Scripting Edition 正则表达式可以匹配 ‘aac‘、‘abc‘、‘acc‘、‘adc‘如此等等，同样也可以匹配 ‘a1c‘、‘a2c‘、a-c‘以及 a#c‘： /a.c/等价的 VBScript 正则表达式为："a.c"如果试图匹配一个包含文件名的字符串，其中句点 (.) 是输入字符串的一部分，则可以在正则表达式中的句点前面加上一个反斜杠 (\) 字符来...

正则表达式

1.string s="@张三 @李四 ";获取“张三”和“李四”MatchCollection mc = Regex.Matches(s, @"@(?<truename>\S+)[ |　]");for (int i = 0; i < mc.Count; i++) //在输入字符串中找到所有匹配 {var trueName=mc[i].Groups["truename"].Value); } 2.string s="张三：say something<br/>李四：say something<br/>替换成"<a name=‘AtTrueName‘>张三</a>：say something<br/><a name=‘AtTrueName‘>李四</a>：...

PHP正则表达式的逆向引用与子模式 php preg_replace应用

mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])功能在 subject 中搜索 pattern 模式的匹配项并替换为 replacement。如果指定了 limit，则仅替换 limit 个匹配，如果省略 limit 或者其值为 -1，则所有的匹配项都会被替换。replacement可以包含\\n形式或$n形式的逆向引用，n可以为0到99，\\n表示匹配pattern第n个子模式的文本，\\0表示匹配整个pattern的文本。子模式$pattern参数中被圆括号括...

正则表达式【代码】【图】

常用正则表达式操作符. ：表示任何单位个字符[ ]：字符集，表示对单个字符给出取值范围，[abc]表示a，b，c，[a-z]表示a到z单个字符[^ ]：非字符集，对单个给出排除范围，[^abc]表示非a或非b或非c的单个字符*：前一个字符0次或者无限次扩展，*abc表示ab abc abcc abccc等+：前一个字符1次或者无限次扩展？：前一个字符o次或者1次扩展|：左右表达式任意一个，abc|edf表示abc 或者def 当字符串中有转义字符是建议使用原生字符串raw st...

正则表达式的基本应用

比如有三个单词 hi nihi wohime 如果我们需要匹配到hi可以直接输入hi 匹配，但是我们注意到这样匹配会把hi nihi wohime 三个单词里面的hi同事匹配到。(注意：这里输出为hi hi hi 三个hi). 如果我们只想要匹配到只含有hi的这个单词，也就是h开头i结尾中间没有任何其他单词。就需要使用\b: 用法\bhi\b (这里表示配置h开头i结尾中间没有任何其他单词的也就是hi这个单词) \b :一般成之为元字符，相当于一个占位符，...

判断汉字正则表达式更严谨方法！【图】

一、通常做法正如网上流传的，判断中文的正则表达式，绝大部分是这么写的（OC语言）：NSPredicate* predicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@",@"[\u4e00-\u9fa5]"]; /*判断是否为中文的正则表达式*/ if([predicate evaluateWithObject:name]){//是中文 }else{//不是中文 }然而上面的正则表达式，逻辑上讲其实不太严谨：比如一些生僻字的Unicode不在0x4e00-0x9FA5之间，那么它不能正确识别出来：比如一些四...

正则表达式使用集锦【图】

正则表达式的使用是一直是一个另人头痛的问题，因其语法和使用规则没有很强的规范，也因没有系统的学习过，只是工作中需要到了才拿来用一下。现在把用到的点拿来备注一下，不用到时候用的时候再重新学习了。1.正则表达式中匹配特定的字符结尾在做url 跳转时需要把一个url 地址跳转到一个指定的文件处当目录中含有 /1001/ 且以/1001/结尾时，这里的1001只是把数字具体化了，这样看起来更通俗易懂。这时的url 可能会是...

正则表达式

1.为什么要使用正则表达式？按照一定的字符串的规则去检查某个字符串是否符合该规则要求。2.正则表达式规则的制定语法： 1）限定符规则（限定有什么样的字母或者字符串）[a]:表示a字母[a-z]:表示英文的小写字母[a-zA-Z]:表示英文字母，包括大写和小写。[0-9]:表示0到9的数字特殊的一些限定符：\w:表示英文和数字（除开一些特殊的字符）\d:表示数字[^\d]：表示非数字（可以是字母也可以是符号）\s:表示空格特殊的，表示任意的数字...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...python 正则表达式与JSON-JSON java-检查字符串是否仅包含字母空格和引...java网页爬虫正则表达式

首页 / 正则 / Python中的正则表达式

Python中的正则表达式

内容导读

内容图文

Python中的正则表达式

概述

各种编码方式

具体操作

深入

内容总结

内容备注

内容手机端

【Python中的正则表达式】教程文章相关的互联网学习教程文章

正则表达式排除某字符串的行【代码】

正则表达式基本语法

JS利用正则表达式替换字符串中的内容

JS正则表达式验证是否为11位有效手机号码,【图】

常用的正则表达式总结

java中常用的正则表达式及示例

js正则表达式

VBS教程：正则表达式简介 -字符匹配【代码】

正则表达式

PHP正则表达式的逆向引用与子模式 php preg_replace应用

正则表达式【代码】【图】

正则表达式的基本应用

判断汉字正则表达式更严谨方法！【图】

正则表达式使用集锦【图】

正则表达式

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程