首页 / XML / python – xml.etree.ElementTree iterparse()仍然使用大量内存？

python – xml.etree.ElementTree iterparse()仍然使用大量内存？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – xml.etree.ElementTree iterparse()仍然使用大量内存？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2356字，纯文字阅读大概需要4分钟。

内容图文

python – xml.etree.ElementTree iterparse()仍然使用大量内存？

我一直在尝试使用iterparse来减少需要处理大型XML文档的脚本的内存占用量.这是一个例子.我编写了这个简单的脚本来读取TMX文件并将其拆分为一个或多个输出文件,不超过用户指定的大小.尽管使用iterparse,当我将886MB文件拆分为100MB文件时,脚本会以所有可用内存运行(使用我的8MB中的6.5进行爬行).

难道我做错了什么？为什么内存使用量如此之高？

#! /usr/bin/python
# -*- coding: utf-8 -*-
import argparse
import codecs
from xml.etree.ElementTree import iterparse, tostring
from sys import getsizeof

def startNewOutfile(infile, i, root, header):
    out = open(infile.replace('tmx', str(i) + '.tmx'), 'w')
    print >>out, '<?xml version="1.0" encoding="UTF-8"?>'
    print >>out, '<!DOCTYPE tmx SYSTEM "tmx14.dtd">'
    print >>out, roottxt
    print >>out, headertxt
    print >>out, '<body>'
    return out

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--maxsize', dest='maxsize', required=True, type=float, help='max size (in MB) of output files')
    parser.add_argument(dest='infile', help='.tmx file to be split')
    args = parser.parse_args()

    maxsize = args.maxsize * 1024 * 1024

    nodes = iter(iterparse(args.infile, events=['start','end']))

    _, root = next(nodes)
    _, header = next(nodes)

    roottxt = tostring(root).strip()
    headertxt = tostring(header).strip()

    i = 1
    curr_size = getsizeof(roottxt) + getsizeof(headertxt)
    out = startNewOutfile(args.infile, i, roottxt, headertxt)

    for event, node in nodes:
        if event =='end' and node.tag == 'tu':
            nodetxt = tostring(node, encoding='utf-8').strip()
            curr_size += getsizeof(nodetxt)
            print >>out, nodetxt
        if curr_size > maxsize:
            curr_size = getsizeof(roottxt) + getsizeof(headertxt)
            print >>out, '</body>'
            print >>out, '</tmx>'
            out.close()
            i += 1
            out = startNewOutfile(args.infile, i, roottxt, headertxt)
        root.clear()

    print >>out, '</body>'
    print >>out, '</tmx>'
    out.close()

解决方法:

在相关问题中找到答案：Why is elementtree.ElementTree.iterparse using so much memory?

在for循环的每次迭代中,不仅需要root.clear(),还需要node.clear().因为我们正在处理启动和启动但是,我们需要注意不要过早删除tu节点：

for e, node in nodes:
    if e == 'end' and node.tag == 'tu':
        nodetxt = tostring(node, encoding='utf-8').strip()
        curr_size += getsizeof(nodetxt)
        print >>out, nodetxt
        node.clear()
    if curr_size > maxsize:
        curr_size = getsizeof(roottxt) + getsizeof(headertxt)
        print >>out, '</body>'
        print >>out, '</tmx>'
        out.close()
        i += 1
        out = startNewOutfile(args.infile, i, roottxt, headertxt)
    root.clear()

内容总结

以上是互联网集市为您收集整理的python – xml.etree.ElementTree iterparse()仍然使用大量内存？全部内容，希望文章能够帮你解决python – xml.etree.ElementTree iterparse()仍然使用大量内存？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/953648.html

来源：【匿名】

【上一篇】使用SimpleXMLElement的大型PHP循环非常慢：内存问题？【下一篇】PHP和JAVA的XML-RPC中文问题解决办法

更多 ►

【python – xml.etree.ElementTree iterparse()仍然使用大量内存？】教程文章相关的互联网学习教程文章

iOS_JSON_XML_图片内存缓存_Block回调

H:/1010/00_JSON_XML_MainViewController.m// MainViewController.m // JSON & XML // Created by apple on 13-10-10. /*异步加载网络图像的内存缓存解决方法1. 在对象中定义一个UIImage2. 在控制器中，填充表格内容时，判断UIImage是否存在内容1> 如果cacheImage不存在，显示占位图像，同时开启异步网络连接加载网络图像网络图像加载完成后，先设置对象的cacheImage设置完成后，再刷新表格对应的行2> 如果cacheImage存在，直接...

yarn-site.xml的部分资源配置参数，主要是与内存相关【代码】

vim yarn-site.xml 每个nodemanager 可分配的内存 100G: yarn.nodemanager.resource.memory-mb每个nodemanager 可分配的CPU 20核 :yarn.nodemanager.resource.cpu-vcores <property><name>yarn.nodemanager.resource.memory-mb</name><value>102400</value><description>Amount of physical memory, in MB, that can be allocated for containers.</description></property><property><name>yarn.nodemanager.resource.cpu-vcores...

jquery不会自动回收xmlHttpRequest对象导致了内存溢出_jquery

之前一直都不曾注意到这一点，今天幸亏看了kuibono的文章，下面是kuibono给出的手动回收xmlHttpRequest对象的代码片断：每次jquery的Ajax请求都会创建一个xmlHttprequest对象，理论上讲，长连接的请求是一个无限递归，请求数量是非常大的，但是由于每次请求都会建立一个新的xmlhttprequest，而且jquery不会自动回收资源，所以导致了内存溢出。通过查看jquery API，发现jquery还有一个 complete对象，是请求完成后回调函数 (请求成...

jquery不会自动回收xmlHttpRequest对象导致了内存溢出

XmlReader 读取器读取内存流 MemoryStream 的注意事项

MemoryStream对象提供了无需进行IO就可以创建Stream的方法，XmlTextWriter和XmlReader提供快速书写和读取XML内容的方法，结合MemoryStream，就可以直接在内存中构造XmlTextWriter，并用XmlReader进行读取。使用MemoryStream和XmlTextWriter进行书写XML,需要注意两点：XmlTextWriter.Flush操作和重设MemoryStream.Position = 0。 C# <%@ Page Language="C#"%> <%@ Import Namespace="System.Xml" %> <%@ Import Namespace="Sy...

ORA-30009: CONNECT BY 操作内存不足--XMLTable的使用

ORA-30009: CONNECT BY 操作内存不足存储13700000001 到 13799999999 所有的手机号，共有99999999个 SELECT * FROM (SELECT ROWNUM SN FROM DUAL CONNECT BY LEVEL <= 13799999999) X WHERE X.SN > 13700000001 SELECT ROWNUM FROM xmltable(1 to 6); CREATE TABLE T_YH_20170705_LHR NOLOGGING AS SELECT 137 || (LPAD(ROWNUM, 8,0)) x FROM DUAL CONNECT BY LEVE...

yarn-site.xml的部分资源配置参数，主要是与内存相关【代码】

vim yarn-site.xml 每个nodemanager 可分配的内存 100G: yarn.nodemanager.resource.memory-mb每个nodemanager 可分配的CPU 20核 :yarn.nodemanager.resource.cpu-vcores<property><name>yarn.nodemanager.resource.memory-mb</name><value>102400</value><description>Amount of physical memory, in MB, that can be allocated for containers.</description></property><property><name>yarn.nodemanager.resource.cpu-vcores</...

多个线程以将xml文件加载到内存中【代码】

我有一组XML文件,我希望将其加载到内存中以进行处理. 我正在将文件加载到Collection中,如果将文件加载到单个线程中而不是使用线程池,则似乎要快得多. 我本以为这会是另一回事. 为什么使用多个线程将文件加载到内存的情况比我仅遍历文件列表并在单个线程中一个接一个地加载每个文件的情况要慢得多？这是与C#.net 3.5 编码：ICollection<XmlDocument> xmlFilesToProcess = new Collection<XmlDocument>();foreach (FileInfo fileInf...

使用内存不足错误Java编写大型XML文件

我正在为Android开发一个应用程序,我需要创建一个相当大的XML文件. 我已经用DOM文档尝试过此操作,但是因为它驻留在内存中,所以会引发“内存不足”错误. 有人可以提出替代解决方案吗？这是一个从头开始创建的XML文件.解决方法:我会逐步将XML写入Stream或Writer,以遍历要转换为XML的数据.这样,您不需要比原始数据多得多的内存.

PHP SimpleXML大文件没有额外的内存使用量【代码】

在每篇有关SimpleXML性能和内存使用的文章中,都提到所有解析的内容都存储在内存中,处理大型文件将导致大量内存使用.但是最近我发现,使用SimpleXML处理大型文件不会导致大量内存使用,甚至会导致几乎没有内存使用.有我的测试脚本：<?php error_reporting(E_ALL); ini_set("display_errors", 1); print "OS: " . php_uname() . "\n"; print "PHP version: " . phpversion() . "\n";print round(memory_get_usage() / 1024 / 1024, 2) ...

java-从内存XML中创建Spring ApplicationContext【代码】

有没有一种方法可以通过传入内存中的XML文件来创建ApplicationContext(或Spring中可以用来执行getBean(“ beanName”)的其他任何方法)？我能够找到的唯一方法涉及提供文件或目录.解决方法:您可以尝试一下：import org.springframework.context.support.GenericXmlApplicationContext;String xmlDef = "..."; ApplicationContext ctx = new GenericXmlApplicationContext(new InputStreamResource(new ByteArrayInputStream(xmlDef....

使用C#XmlSerializer为大对象集编写块,以避免内存不足【代码】

我喜欢XmlSerialize的工作方式,如此简单,优雅且具有= p属性.但是,在序列化为xml文件之前建立所有对象的集合时,我遇到了内存不足的问题. 我正在从SQL数据库中填充对象,并打算使用XmlSerialize将对象写出为XML.它适用于小的子集,但是如果我尝试从数据库中获取所有对象,则会遇到“内存不足”异常. XmlSerialize是否具有某种功能,可以让我从数据库中抓取100个对象的批处理,然后编写它们,抓取下一批100个对象并附加到xml？我希望我不必...

c#-数据集中的大型XML文件(内存不足)【代码】

我目前正在尝试将稍大的xml文件加载到数据集中. xml文件约为700 MB,每次我尝试读取xml都需要大量时间,并且过一会儿会抛出“内存不足”异常.DataSet ds = new DataSet(); ds.ReadXml(pathtofile);主要问题是,对于我而言,必须使用这些数据集(我将其用于将xml文件中的数据导入sybase数据库(foreach表,foreach行,foreach列)),并且我没有任何方案文件. 我已经在Google上搜索了一段时间,但我只找到了对我不可用的解决方案. 附加信息：我使...

javascript-使用XMLHttpRequest的内存高效消息块处理【代码】

我有一个带有进度事件处理程序的XMLHttpRequest,它请求一个分块的页面,该页面连续发送添加消息块.如果未设置responseType,则可以在每个进度事件中访问XMLHttpRequest的response属性,并处理其他消息块.这种方法的问题在于,浏览器必须将整个响应保留在内存中,最终,由于这种内存浪费,浏览器将崩溃. 因此,我尝试了arraybuffer的responseType,希望可以对缓冲区进行切片以防止先前的过多内存浪费.不幸的是,此时,进度事件处理程序不再能够...

内存泄漏使用xml.dom.minidom解析xml【代码】

我正在使用xml.dom.minidom来解析xml文件,如下所示：import xml.dom.minidom as domfile= open('file.xml') doc= dom.parse(file) # SNIP doc.unlink()即使取消链接文档后,内存使用量仍约为120 MiB.当实际使用该程序导致解析多个xml文件时,内存使用量攀升至大约300 MiB,这是不可接受的. 我确定内存泄漏不是由我的代码引起的,而是由极小的原因引起的,因为即使这样做doc= dom.parse(file) doc.unlink()产生相同的结果. 我是在做错什么...

XML - 最热教程

基于DOM4j和POI实现的XML文件转换为XLS...php+mysql+xml实现的问卷调查（代码）XMLHttpRequest中responseText如何获取...C# XELEMENT 解析xml文件(字符串)Visual Studio 2013如何使XML文件转换成...使用XMLHttpRequest解析json scxml 图像展示器（基于C++ MFC tinyx...解决java.lang.ClassNotFoundException...php – 通过SimpleXMLElement循环访问属...脚本 – 如何使用python或perl等在xml中...

首页 / XML / python – xml.etree.ElementTree iterparse()仍然使用大量内存？

python – xml.etree.ElementTree iterparse()仍然使用大量内存？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – xml.etree.ElementTree iterparse()仍然使用大量内存？】教程文章相关的互联网学习教程文章

iOS_JSON_XML_图片内存缓存_Block回调

yarn-site.xml的部分资源配置参数，主要是与内存相关【代码】

jquery不会自动回收xmlHttpRequest对象导致了内存溢出_jquery

jquery不会自动回收xmlHttpRequest对象导致了内存溢出

XmlReader 读取器读取内存流 MemoryStream 的注意事项

ORA-30009: CONNECT BY 操作内存不足--XMLTable的使用

yarn-site.xml的部分资源配置参数，主要是与内存相关【代码】

多个线程以将xml文件加载到内存中【代码】

使用内存不足错误Java编写大型XML文件

PHP SimpleXML大文件没有额外的内存使用量【代码】

java-从内存XML中创建Spring ApplicationContext【代码】

使用C#XmlSerializer为大对象集编写块,以避免内存不足【代码】

c#-数据集中的大型XML文件(内存不足)【代码】

javascript-使用XMLHttpRequest的内存高效消息块处理【代码】

内存泄漏使用xml.dom.minidom解析xml【代码】

PYTHON - 相关标签

TREE - 相关标签

XML - 最新教程

XML - 最热教程