首页 / PYTHON / Python通读文件直到匹配,读到下一个模式

Python通读文件直到匹配,读到下一个模式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python通读文件直到匹配,读到下一个模式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6473字，纯文字阅读大概需要10分钟。

内容图文

我需要读一些文件(可以大到10GB).我需要它做的是浏览文件,直到它匹配模式.然后打印该行以及后面的每一行,直到它与另一个模式匹配.此时,继续读取文件直到下一个模式匹配.

例如.文件包含.

---- Alpha ---- Zeta
...(text lines)

---- Bravo ---- Delta
...(text lines)

等等

如果匹配—- Alpha —- Zeta,它应该打印—- Alpha —- Zeta和之后的每一行直到它遇到—- Bravo —- Delta(或者除了—-阿尔法—- Zeta),它会直接读到它直到匹配—-阿尔法—-泽塔再次.

以下匹配我正在寻找的 – 但只打印匹配行 – 而不是它后面的文本.

知道我哪里出错吗？

import re
fh = open('text.txt', 'r')

re1='(-)'   # Any Single Character 1
re2='(-)'   # Any Single Character 2
re3='(-)'   # Any Single Character 3
re4='(-)'   # Any Single Character 4
re5='( )'   # White Space 1
re6='(Alpha)'  # Word 1
re6a='((?:[a-z][a-z]+))'   # Word 1 alternate
re7='( )'   # White Space 2
re8='(-)'   # Any Single Character 5
re9='(-)'   # Any Single Character 6
re10='(-)'  # Any Single Character 7
re11='(-)'  # Any Single Character 8
re12='(\\s+)'  # White Space 3
re13='(Zeta)'  # Word 2
re13a='((?:[a-z][a-z]+))'  # Word 2 alternate


rg = re.compile(re1+re2+re3+re4+re5+re6+re7+re8+re9+re10+re11+re12+re13,re.IGNORECASE|re.DOTALL)
rga =     re.compile(re1+re2+re3+re4+re5+re6a+re7+re8+re9+re10+re11+re12+re13a,re.IGNORECASE|re.DOTALL)


for line in fh:
    if re.match(rg, line):
        print line
        fh.next()
        while not re.match(rga, line):
            print fh.next()

fh.close()

和我的示例文本文件.

---- Pappa ---- Oscar
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Mauris eleifend imperdiet 
lacus quis imperdiet. Nulla erat neque, laoreet vel fermentum a, dapibus in sem. 
Maecenas elementum nisi nec neque pellentesque ac rutrum urna cursus. Nam non purus 
sit amet dolor fringilla venenatis. Integer augue neque, scelerisque ac dictum at, 
venenatis elementum libero. Etiam nec ante in augue porttitor laoreet. Aenean ultrices
pellentesque erat, id porta nulla vehicula id. Cras eu ante nec diam dapibus hendrerit
in ac diam. Vivamus velit erat, tincidunt id tempus vitae, tempor vel leo. Donec 
aliquam nibh mi, non dignissim justo.

---- Alpha ---- Zeta
Sed molestie tincidunt euismod. Morbi ultrices diam a nibh varius congue. Nulla velit
erat, luctus ac ornare vitae, pharetra quis felis. Sed diam orci, accumsan eget 
commodo eu, posuere sed mi. Phasellus non leo erat. Mauris turpis ipsum, mollis sed 
ismod nec, aliquam non quam. Vestibulum sem eros, euismod ut pharetra sit amet, 
dignissim eget leo.

---- Charley ---- Oscar
Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. 
Aliquam commodo, metus at vulputate hendrerit, dui justo tempor dui, at posuere    
ante vitae lorem. Fusce rutrum nibh a erat condimentum laoreet. Nullam eu hendrerit 
sapien. Suspendisse id lobortis urna. Maecenas ut suscipit nisi. Proin et metus at 
urna euismod sollicitudin eu at mi. Aliquam ac egestas magna. Quisque ac vestibulum 
lectus. Duis ac libero magna, et volutpat odio. Cras mollis tincidunt nibh vel rutrum.
Curabitur fringilla, ante eget scelerisque rhoncus, libero nisl porta leo, ac
vulputate mi erat vitae felis. Praesent auctor fringilla rutrum. Aenean sapien ligula,
imperdiet sodales ullamcorper ut, vulputate at enim.


---- Bravo ---- Delta
Donec cursus tincidunt pellentesque. Maecenas neque nisi, dignissim ac aliquet ac,
vestibulum ut tortor. Pellentesque habitant morbi tristique senectus et netus et
malesuada fames ac turpis egestas. Aenean ullamcorper dapibus accumsan. Aenean eros
tortor, ultrices at adipiscing sed, lobortis nec dolor. Fusce eros ligula, posuere
quis porta nec, rhoncus et leo. Curabitur turpis nunc, accumsan posuere pulvinar eget,
sollicitudin eget ipsum. Sed a nibh ac est porta sollicitudin. Pellentesque ut urna ut 
risus pharetra mollis tincidunt sit amet sapien. Sed semper sollicitudin eros quis 
pellentesque. Curabitur ac metus lorem, ac malesuada ipsum. Nulla turpis erat, congue 
eu gravida nec, egestas id nisi. Praesent tellus ligula, pretium vitae ullamcorper 
vitae, gravida eu ipsum. Cras sed erat ligula.


---- Alpha ---- Zeta
Cras id condimentum lectus. Sed sit amet odio eros, ut mollis sapien. Etiam varius 
tincidunt quam nec mattis. Nunc eu varius magna. Maecenas id ante nisl. Cras sed augue 
ipsum, non mollis velit. Fusce eu urna id justo sagittis laoreet non id urna. Nullam 
venenatis tincidunt gravida. Proin mattis est sit amet dolor malesuada sagittis. 
Curabitur in lacus rhoncus mi posuere ullamcorper. Phasellus eget odio libero, ut 
lacinia orci. Pellentesque iaculis, ligula at varius vulputate, arcu leo dignissim 
massa, non adipiscing lectus magna nec dolor. Quisque in libero nec orci vestibulum 
dapibus. Nulla turpis massa, varius quis gravida eu, bibendum et nisl. Fusce tincidunt 
laoreet elit, sed egestas diam pharetra eget. Maecenas lacus velit, egestas nec tempor 
eget, hendrerit et massa.

更新

下面的代码确实有效 – 它在标题类型行上匹配 – 打印它后面的每一行直到下一个标题类型模式 – 这是不匹配的,跳过下一个标题类型模式.

唯一的问题是 – 它确实非常慢.通过10米线路需要大约一分钟.

re1='(-)'   # Any Single Character 1
re2='(-)'   # Any Single Character 2
re3='(-)'   # Any Single Character 3
re4='(-)'   # Any Single Character 4
re5='( )'   # White Space 1
re6='(Alpha)'  # Word 1
re6a='((?:[a-z][a-z]+))'   # Word 1 alternate
re7='( )'   # White Space 2
re8='(-)'   # Any Single Character 5
re9='(-)'   # Any Single Character 6
re10='(-)'  # Any Single Character 7
re11='(-)'  # Any Single Character 8
re12='(\\s+)'  # White Space 3
re13='(Zeta)'  # Word 2
re13a='((?:[a-z][a-z]+))'  # Word 2 alternate


rg = re.compile(re1+re2+re3+re4+re5+re6+re7+re8+re9+re10+re11+re12+re13,re.IGNORECASE|re.DOTALL)
rga = re.compile(re1+re2+re3+re4+re5+re6a+re7+re8+re9+re10+re11+re12+re13a,re.IGNORECASE|re.DOTALL)



linestop = 0
fh = open('test.txt', 'r')

for line in fh:
    if linestop == 0:
        if re.match(rg, line):
            print line
            linestop = 1
    else:
        if re.match(rga, line):
            linestop = 0
        else:
            print line

fh.close()

如果我首先添加一个grep部分,我认为这会极大地提高速度.即grep out – 然后运行上面的正则表达式脚本.

我让os.system运行良好 – 我无法看到如何通过pOpen传递正则表达式匹配

****最终更新**********

我称这完成了.我最终做的是：

>使用os.system浏览文件 – 并将结果写出来.
>读取文件并使用我上面的re.match – 只打印出必要的项目.

最终结果是从大约65秒读取1000万行文件 – 打印出必要的项目 – 大约3.5秒.我希望我能想出如何传递grep而不是os.system – 但也许它在python 2.4中没有得到很好的启发

解决方法:

你仍然匹配线,它不会改变,因为你仍然在for循环的同一个迭代中.

内容总结

以上是互联网集市为您收集整理的Python通读文件直到匹配,读到下一个模式全部内容，希望文章能够帮你解决Python通读文件直到匹配,读到下一个模式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/719333.html

来源：【匿名】

【上一篇】Python,从方法返回/处理复杂数据的最佳方式【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python通读文件直到匹配,读到下一个模式】教程文章相关的互联网学习教程文章

Python 读文件【代码】

版权所有，未经许可，禁止转载章节Python 介绍Python 开发环境搭建Python 语法Python 变量Python 数值类型Python 类型转换Python 字符串(String)Python 运算符Python 列表(list)Python 元组(Tuple)Python 集合(Set)Python 字典(Dictionary)Python If … ElsePython While 循环Python For 循环Python 函数Python LambdaPython 类与对象Python 继承Python 迭代器(Iterator)Python 模块Python 日期(Datetime)Python JSONPython 正则表...

python怎么读文件【图】

python怎么读文件？首先，在桌面上建立一个txt文档，在上面输入以下内容：你好。 Hello. abcdefg 啊不错的风格推荐：《Python教程》查看文件的属性，获取文件的绝对路径：D:\HintSoft\Hint-W7\Desktop文件名是——新建文本文档.txt，那么，绝对路径加上文件名，就是绝对文件名：D:\HintSoft\Hint-W7\Desktop\新建文本文档.txt用python打开这个文件，并命名为f。f = open(r"D:\HintSoft\Hint-W7\Desktop\新建文本文档.txt",r)上面没...

python读文件逐行处理的示例代码分享

代码如下:import os ## for os.path.isfile() def dealline(line) : print(line) ## 针对line我可以做很多事情 def getfilename() : return input(Please input file name(input exit() for exit):).strip() class more : ## MORE功能 linenum = 0 size = 10 def work(self) : if self.linenum >= self.size : if input(--MORE--).strip().lower() == exit() : return False ...

Python 三种读文件方法read(), readline(), readlines()及去掉换行符\n

Python 三种读文件方法read(), readline(), readlines()及去掉换行符\n 首先, 让我们看下数据demo.txt, 就两行数据. 35durant teamGSW 1. read() with open("demo.txt", "r") as f:data = f.read()print(data)print(type(data))output[1]: 35durant teamGSW 这种方法直接将所有的数据一次性读取出来, data的数据类型是一个字符串 2. readline()with open("demo.txt", "r") as f:data = f.readline()print(data)print(type(data))ou...

python读文件【代码】

1.openwith open(‘1.txt’, ‘r’) as f: print(f.readlines())read() 每次读取整个文件，它通常用于将文件内容放到一个字符串变量中。如果文件大于可用内存，为了保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。readlines() 一次读取整个文件，readlines() 自动将文件内容分析成一个行的列表，该列表可以由 Python 的 for … in … 结构进行处理。readline() 每次只读取一行，通常比readlines() 慢得多。...

Python 读文件

版权所有，未经许可，禁止转载章节Python 介绍 Python 开发环境搭建 Python 语法 Python 变量 Python 数值类型 Python 类型转换 Python 字符串(String) Python 运算符 Python 列表(list) Python 元组(Tuple) Python 集合(Set) Python 字典(Dictionary) Python If … Else Python While 循环 Python For 循环 Python 函数 Python Lambda Python 类与对象 Python 继承 Python 迭代器(Iterator) Python 模块 Python 日期(Datetime) Py...

Python 读文件

版权所有，未经许可，禁止转载章节Python 介绍 Python 开发环境搭建 Python 语法 Python 变量 Python 数值类型 Python 类型转换 Python 字符串(String) Python 运算符 Python 列表(list) Python 元组(Tuple) Python 集合(Set) Python 字典(Dictionary) Python If … Else Python While 循环 Python For 循环 Python 函数 Python Lambda Python 类与对象 Python 继承 Python 迭代器(Iterator) Python 模块 Python 日期(Datetime) Py...

Python 3基础教程15-读文件内容【代码】【图】

前面两篇关于写文件和更新文件内容，我们最后都是手动去打开检查是否更新了。现在我们这里通过函数读取之前文件内容，打印到屏幕终端。运行结果：

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python通读文件直到匹配,读到下一个模式

Python通读文件直到匹配,读到下一个模式

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python通读文件直到匹配,读到下一个模式】教程文章相关的互联网学习教程文章

Python 读文件【代码】

python怎么读文件【图】

python读文件逐行处理的示例代码分享

Python 三种读文件方法read(), readline(), readlines()及去掉换行符\n

python读文件【代码】

Python 读文件

Python 读文件

Python 3基础教程15-读文件内容【代码】【图】

PYTHON - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程