首页 / 正则 / python – 内存限制在海量文本文件上使用正则表达式

python – 内存限制在海量文本文件上使用正则表达式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 内存限制在海量文本文件上使用正则表达式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含754字，纯文字阅读大概需要2分钟。

内容图文

我有一个以下形式的文本文件：

('1', '2')
('3', '4')
     .
     .
     .

我试图让它看起来像这样：

1 2
3 4
etc...

我一直在尝试使用python中的re模块,将re.sub命令链接在一起,如下所示：

for line in file:
    s = re.sub(r"\(", "", line)
    s1 = re.sub(r",", "", s)
    s2 = re.sub(r"'", "", s1)
    s3 = re.sub(r"\)", "", s2)
    output.write(s3)
output.close()

它似乎工作得很好,直到我接近输出文件的结尾;然后它变得不一致并停止工作.我认为这是因为我正在处理的文件的大小; 300MB或约1200万行.

任何人都可以帮我确认我只是内存不足吗？或者如果是别的什么？合适的替代方案或方法？

解决方法:

您可以使用更简单的正则表达式来简化代码,该正则表达式可以查找输入中的所有数字：

import re
with open(file_name) as input,open(output_name,'w') as output:
for line in input:
       output.write(' '.join(re.findall('\d+', line))
       output.write('\n')

内容总结

以上是互联网集市为您收集整理的python – 内存限制在海量文本文件上使用正则表达式全部内容，希望文章能够帮你解决python – 内存限制在海量文本文件上使用正则表达式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/966298.html

来源：【匿名】

【上一篇】c# – 用于验证Windows UNC路径的正则表达式【下一篇】正则表达式语法

更多 ►

【python – 内存限制在海量文本文件上使用正则表达式】教程文章相关的互联网学习教程文章

正则表达式学习

绪：以下内容仅仅是本人学习正则表达式时候的简单记录，欢迎拍砖指正正则表达式就是记录文本规则的代码：描述一组字符串特征的模式=============================================================================绪---通配符(wildcard)：仅作用于命令行command line中参数argument里的路径path上 * --任意的字符串 ? --任意单一字符 [list] --匹配list中的任...

记录三条重要的正则表达式【代码】

1. <script\s+\S+comment.js[\s\S]*?</script>结果可以匹配出包含comment.js的script标签的内容，比如：输入：...<script>document.documentElement.className=document.documentElement.className.replace(/\bno-js\b/,‘js‘);if(window.Shopify&&window.Shopify.designMode)document.documentElement.className+=‘ in-theme-editor‘;if((‘ontouchstart‘inwindow)||window.DocumentTouch&&documentinstanceofDocumentTouch)d...

C++ 正则表达式【代码】

//1.当函数返回string时候的注意点: string Fun() {return string("szn"); }const char* pStr = Fun().c_str(); //如上代码，pStr = "" 而非 "szn"，原因:返回的string变量被析构了//2.正则表达式组件: regex:用于表示一个正则表达式 regex_match:将一个字符序列与一个正则表达式匹配 regex_search:寻找第一个与正则表达式匹配的子序列 regex_replace:使用给定格式替换一个正则表达式 sregex_iterator:迭代器适配器，调用regex_sea...

过目不忘JS正则表达式【代码】

原文:过目不忘JS正则表达式正则表达式，有木有人像我一样，学了好几遍却还是很懵圈，学的时候老明白了，学完了忘光了。好吧，其实还是练的不够，所谓温故而知新，可以为师矣，今天就随我来复习一下这傲娇的正则表达式吧。为啥要有正则表达式呢？其实就是因为计算机笨（这话不是我说的），比如123456@qq.com，我们一看就是邮箱，可是计算机不认识啊，所以我们就要用一些计算机认识的语言，来制定好规则，告诉它符...

正则表达式应用【图】

查找替换换行符号^段落标志符号 ^p原文：http://www.cnblogs.com/lynclynn/p/5194566.html

正则表达式排除某字符串的行【代码】

正则表达式排除某字符串的行 ^(?!.*trigger$".+"$).*$ 原文：https://www.cnblogs.com/wolbo/p/11353186.html

正则表达式基本语法

正则表达式是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”）。模式描述在搜索文本时要匹配的一个或多个字符串。1.正则表达式基本语法两个特殊的符号‘^‘和‘$‘。他们的作用是分别指出一个字符串的开始和结束。例子如下："^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）；"of despair$"：表示所以以"of despair"结尾的字符串；"^abc$"：表示开始和结尾都是"abc"的字符串——呵...

JS利用正则表达式替换字符串中的内容

//从字符串‘Is this a cat is‘中剪去‘is‘: var str=‘Is this a cat is‘; var subStr=new RegExp(‘is‘);//创建正则表达式对象 var result=str.replace(subStr,"");//把‘is‘替换为空字符串 console.log(result);//Is th a cat is var subStr=new RegExp(‘is‘,‘i‘);//创建正则表达式对象,不区分大小写 var result=str.replace(subStr,"");//把‘is‘替换为空字符串 console.log(result);//this a cat is va...

JS正则表达式验证是否为11位有效手机号码,【图】

https://blog.csdn.net/nongweiyilady/article/details/74007124 最近在做注册登陆页面，都要涉及到验证11位有效手机号码，这里贴出代码，希望能帮到有这个开发需求的朋友。[javascript] view plaincopyfunction isPoneAvailable($poneInput) { var myreg=/^[1][3,4,5,7,8][0-9]{9}$/; if (!myreg.test($poneInput.val())) { return false; } else { return true;...

常用的正则表达式总结

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。匹配中文字符的正则表达式： [\u4e00-\u9fa5]评注：匹配中文还真是个头疼的事，有了这个表达式就好办了匹配双字节字符(包括汉字在内)：[^\x00-\xff]评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）匹配空白行的正则表达式：\n\s*\r评注：可以用来删除空白行匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?...

java中常用的正则表达式及示例

转义字符想要匹配某些具体的特殊符号，比如+[.?^{|\，需要在前面加上一个转义字符\ 。比如通过 \. 去匹配.号。元字符：由于元字符一般会放在字符串中，所以需要转义，也就是\会变成 \\ 。. .可以匹配除换行符之外的任何单字符。比如.*表示任意个非换行符\n的字符。而.l+.则表示以任意非\n开始，中间包含至少一个l字符，并且以任意非\n字符结束。^和$ ^匹配字符串的开始位置。而$匹配字符串的结尾位置。^cat : 字符串以c开头紧接着...

js正则表达式

概念正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。简介正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字...

VBS教程：正则表达式简介 -字符匹配【代码】

字符匹配句点 (.) 匹配一个字符串中任何单个的打印或非打印字符，除了换行符 (\n) 之外。下面的 Visual Basic Scripting Edition 正则表达式可以匹配 ‘aac‘、‘abc‘、‘acc‘、‘adc‘如此等等，同样也可以匹配 ‘a1c‘、‘a2c‘、a-c‘以及 a#c‘： /a.c/等价的 VBScript 正则表达式为："a.c"如果试图匹配一个包含文件名的字符串，其中句点 (.) 是输入字符串的一部分，则可以在正则表达式中的句点前面加上一个反斜杠 (\) 字符来...

正则表达式

1.string s="@张三 @李四 ";获取“张三”和“李四”MatchCollection mc = Regex.Matches(s, @"@(?<truename>\S+)[ |　]");for (int i = 0; i < mc.Count; i++) //在输入字符串中找到所有匹配 {var trueName=mc[i].Groups["truename"].Value); } 2.string s="张三：say something<br/>李四：say something<br/>替换成"<a name=‘AtTrueName‘>张三</a>：say something<br/><a name=‘AtTrueName‘>李四</a>：...

PHP正则表达式的逆向引用与子模式 php preg_replace应用

mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])功能在 subject 中搜索 pattern 模式的匹配项并替换为 replacement。如果指定了 limit，则仅替换 limit 个匹配，如果省略 limit 或者其值为 -1，则所有的匹配项都会被替换。replacement可以包含\\n形式或$n形式的逆向引用，n可以为0到99，\\n表示匹配pattern第n个子模式的文本，\\0表示匹配整个pattern的文本。子模式$pattern参数中被圆括号括...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...python 正则表达式与JSON-JSON java-检查字符串是否仅包含字母空格和引...java网页爬虫正则表达式

首页 / 正则 / python – 内存限制在海量文本文件上使用正则表达式

python – 内存限制在海量文本文件上使用正则表达式

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 内存限制在海量文本文件上使用正则表达式】教程文章相关的互联网学习教程文章

正则表达式学习

记录三条重要的正则表达式【代码】

C++ 正则表达式【代码】

过目不忘JS正则表达式【代码】

正则表达式应用【图】

正则表达式排除某字符串的行【代码】

正则表达式基本语法

JS利用正则表达式替换字符串中的内容

JS正则表达式验证是否为11位有效手机号码,【图】

常用的正则表达式总结

java中常用的正则表达式及示例

js正则表达式

VBS教程：正则表达式简介 -字符匹配【代码】

正则表达式

PHP正则表达式的逆向引用与子模式 php preg_replace应用

PYTHON - 相关标签

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程