首页 / 爬虫 / spider.3-爬虫中的re
spider.3-爬虫中的re
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了spider.3-爬虫中的re,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含868字,纯文字阅读大概需要2分钟。
内容图文
![spider.3-爬虫中的re](/upload/InfoBanner/zyjiaocheng/1310/668bdf7ebd5c40f58e659d636e47e6e5.jpg)
1、compile()
编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)
格式:
re.compile(pattern,flags=0)
pattern: 编译时用的表达式字符串。
flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等
标志 |
含义
|
re.S(DOTALL)
|
使.匹配包括换行在内的所有字符 |
re.I(IGNORECASE)
|
使匹配对大小写不敏感
|
re.L(LOCALE)
|
做本地化识别(locale-aware)匹配,法语等
|
re.M(MULTILINE)
|
多行匹配,影响^和$
|
re.X(VERBOSE)
|
该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
|
re.U
|
根据Unicode字符集解析字符,这个标志影响\w,\W,\b,\B
|
import re tt = "Tina is a good girl, she is cool, clever, and so on..." rr = re.compile(r‘\w*oo\w*‘) print(rr.findall(tt)) #查找所有包含‘oo‘的单词执行结果如下: [‘good‘, ‘cool‘]
2、findall()
re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
格式:
re.findall(pattern, string, flags=0)
import re s = "A B C D"# 1. p1 = re.compile(‘\w+\s+\w+‘) print(p1.findall(s)) # 2.print(re.findall(‘\w+\s+\w+‘,s)) # 3.print(re.compile(‘\w+\s+\w+‘).findall(s))
3.
原文:https://www.cnblogs.com/LQD-future/p/13689455.html
内容总结
以上是互联网集市为您收集整理的spider.3-爬虫中的re全部内容,希望文章能够帮你解决spider.3-爬虫中的re所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。