首页 / XML / 使用Python lxml和Iterparse解析大型XML文件

使用Python lxml和Iterparse解析大型XML文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python lxml和Iterparse解析大型XML文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1207字，纯文字阅读大概需要2分钟。

内容图文

我正在尝试使用lxml和iterparse方法编写解析器来逐步执行包含许多项的非常大的xml文件.

我的文件格式为：

<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
  <url>
     <item>http://www.url1.com</item>
  </url>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
  <url>
     <item>http://www.url2.com</item>
  </url>
</item>

到目前为止我的解决方案是：

from lxml import etree

context = etree.iterparse( MYFILE, tag='item' )

for event, elem in context :
      print elem.xpath( 'description/text( )' )
      elem.clear( )
      while elem.getprevious( ) is not None :
            del elem.getparent( )[0]

del context

当我运行它时,我得到类似的东西：

[]
['description1']
[]
['description2']

空白集是因为它还将子项的项标记拉出到url标记,并且它们显然没有用xpath提取的描述字段.我希望逐个解析每个项目,然后根据需要处理子字段.我有点只是学习lxml图书馆,所以我很好奇是否有办法拉出主要项目,如果遇到任何子项目？

解决方法:

无论如何,核心实现都会解析整个xml. etree.iterparse只是生成器样式中的一个视图,它通过标记名称提供简单的过滤(请参阅docstring http://lxml.de/api/lxml.etree.iterparse-class.html).
如果你想要一个复杂的过滤,你应该自己做.

解决方案：注册启动事件：

iterparse(self, source, events=("start", "end",), tag="item")

当你是“item / url / item”时,有一个bool知道你何时在“item”结束.

内容总结

以上是互联网集市为您收集整理的使用Python lxml和Iterparse解析大型XML文件全部内容，希望文章能够帮你解决使用Python lxml和Iterparse解析大型XML文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/695681.html

来源：【匿名】

【上一篇】java – 用于大型XML的高效解析器【下一篇】PHP和JAVA的XML-RPC中文问题解决办法

更多 ►

【使用Python lxml和Iterparse解析大型XML文件】教程文章相关的互联网学习教程文章

【原创】Android多个xml文件的使用【代码】

Android中经常会使用多个xml文件，但在Mainactivity中使用的setContentView(R.layout.main)只加载main.xml文件，其他xml文件不加载进当前视图，当我们要用到其他xml文件中的控件是发现直接使用findViewById()方法时不报错但控件的值找不到为null，而一旦为该控件添加相应事件就会出现空指针异常。原因就在于控件并未加载进当前视图。解决方法：两种1、使用在main.xml中使用include语句 <include layout="@layout/x"/>2、使...

XML文件(2)--使用DOM4J示例【代码】

其他依赖字段/方法privateList<Book> bookList =newLinkedList<Book>();publicList<Book> getBookList(String file){ parseXML(file);returnthis.bookList;}获取DocumentBuilder(文件解析器)/** * 解析XML文件 * * @param file */privatevoid parseXML(String file){// 创建book临时变量Book book =null;// 1.创建SAXReader对象SAXReader reader =newSAXReader();// 2.1 创建输入流InputStreamReader input =null;try{// 2.2 实...

tomcat不需要重启热部署xml文件【代码】

项目中，遇到情况，有时候增加struts的配置了，有时候粗心改错了，然后急需要发布线上吧，又不能重启影响其他的，最后发现struts有这个功能呢！在struts.xml的配置文件中加上一句话就行<struts> <constant name="struts.configuration.xml.reload" value="true"/></struts>另配上解释：开发模式常用配置的简介---<!-- 指定每次请求...

Mybatis映射.xml文件报错【图】

MyBatis框架里面，在dao层进行测试，控制台显示错误是：必须为元素类型 "delete" 声明属性 "resultType"相应的.xml文件的sql语句是：控制台的详细报错是：1.必须为元素类型 "delete" 声明属性 "resultType"2. 上网查资料说，每一个_sqlMapper.xml文件中尽量每中sql语句对一个namespace(每个dao层的完整java类)；结果尝试，也没有成功；最后索性将_sqlMapper.xml文件中resultType删掉，测试就成功了；删除如图：成功测试图：1是获...

xml文件参数类型有问题【代码】

org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.executor.ExecutorException: A query was run and no Result Maps were found for the Mapped Statement ‘com.itheima.dao.CheckGroupDao.findAll‘. It‘s likely that neither a Result Type nor a Result Map was specified.xml文件里面参数类型有问题 parameterType:有参数resultType:没有参数原文：https://www.cnblogs.com/Koma-vv/p/1...

Mybatis中mybatis-config.xml文件的解析【代码】

Mybatis中mybatis-config.xml文件的解析： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"> <configuration><properties resource="database.properties"/><settings><setting name...

自动帮助创建android资源xml文件的网站

自动帮助创建android资源xml文件的网站http://android-holo-colors.com/stack overflow上一个seekbar的例子：http://stackoverflow.com/questions/16163215/android-styling-seek-bar原文：http://www.cnblogs.com/welhzh/p/3582089.html

IDEA开发工具，tomcat环境下启动maven项目失败，无法找到mapper目录下的xml文件

说明：maven在扫描java文件夹时，不会扫描其中的.xml文件，因为它默认是扫描java文件的，这样mapper.xml就会丢失而导致报错解决方案：在pom.xml文件中添加如下内容：<build> <resources>  <resource> <directory>src/main/java</directory> <includes> <include>**/*.xml</include> </includes> ...

SQL 映射 XML 文件【代码】【图】

MyBatis 真正强大之处就在这些映射语句，也就是它的魔力所在。对于它的强大功能，SQL 映射文件的配置却非常简单。如果您比较 SQL 映射文件配置与 JDBC 代码，您很快可以发现，使用 SQL 映射文件配置可以节省95%的代码量。MyBatis 被创建来专注于 SQL，但又给您自己的实现极大的空间。 SQL 映射 XML 文件只有一些基本的元素需要配置，并且要按照下面的顺序来定义：?cache：在特定的命名空间配置缓存。?cache-ref：引用另外一个命名空...

InputStream流解析 XML文件【代码】

1// 根据InputStream流解析 XML文件 2privatevoid getNewsFromStream(InputStream is){3// 1.创建XML pull 解析器谷歌内置解析器 4 XmlPullParser xp = Xml.newPullParser();5try {6//2.指定解析器要解析的文件和解析文件所用到的编码方式 7 xp.setInput(is,"utf-8");8//3.开始解析文件（在解析之前需要有 JavaBean，先创建JavaBean）910// 获取事件类型，通过事件类型去判断当前解析的是什么节点11int t...

50.使用DOM4J解析XML文件【代码】

需要导入dom4j-1.6.1.jar收藏信息.xml<?xml version="1.0" encoding="GBK"?><PhoneInfo><Brand name="华为"><Type name="U8650"/><Type name="HW123"/><Type name="HW321"/></Brand><Brand name="苹果"><Type name="iPhone4"/></Brand><Brand name="三星"><Type name="Note4"/></Brand></PhoneInfo>新收藏.xml<?xml version="1.0" encoding="GBK"?><PhoneInfo><Brand name="华为"><Type name="U8650"/><Type name="HW123"/><Type n...

第三十九讲：Android之AndroidManifest.xml文件中注册权限

积土而为山，积水而为海。——《荀子·儒效》本讲内容：android权限详细 1 访问登记属性 android.permission.ACCESS_CHECKIN_PROPERTIES ，读取或写入登记check-in数据库属性表的权限 2 获取错略位置 android.permission.ACCESS_COARSE_LOCATION，通过WiFi或移动基站的方式获取用户错略的经纬度信息，定位精度大概误差在30~1500米 3 获取精确位置 android.permission.ACCESS_FINE_LOCATION，通过GPS芯片接收卫星的定位信息，定...

将 xml 文件转为 DataTable【代码】

1privatestatic DataTable CreateDataTable(string table) {2 DataSet dataSet = new DataSet();3string dataFile = FilesHelper.FindingFileName(Application.StartupPath, "Data\\Mail.xml");4if(dataFile != string.Empty) {5 FileInfo fi = new FileInfo(dataFile);6 dataSet.ReadXml(fi.FullName);7return dataSet.Tables[table];8 }9returnnull; 10 } 原文：...

VB.NET 将JSON格式的字符串保存到XML文件中【代码】【图】

1.关于本文这几天打算写一个工具类JsonXmlHelper，用来进行用XML来保存JSON格式文件的工作。该工具类中要实现2个最主要的函数：1）将JSON格式的内容写入到地址为address的XML中：WriteJsonToXml2）把函数1中构造的XML文件恢复成JSON格式文档：RecoverJsonFromXml函数1的实现将在本文中给出，函数2的实现将在以后发表的博文中给出2.代码说明1）添加引用：Newtonsoft.Json.dll2）导入库‘JSON解析相关函数，需要添加引用Newtonsoft.J...

pom.xml 识别xml文件【代码】

<build><resources><resource><directory>src/main/java</directory><includes><include>**/*.xml</include></includes><filtering>true</filtering></resource></resources></build> 原文：http://www.cnblogs.com/duneF/p/7684948.html

XML - 最热教程

基于DOM4j和POI实现的XML文件转换为XLS...php+mysql+xml实现的问卷调查（代码）XMLHttpRequest中responseText如何获取...C# XELEMENT 解析xml文件(字符串)Maven 项目之pom.xml 提示Unknow Error Android中序列化对象到XMl 和 XML反序列...用Java将XML文档保存在数据库中(Hibern...c# – 如何更新XML节点？解决java.lang.ClassNotFoundException...php – 通过SimpleXMLElement循环访问属...

首页 / XML / 使用Python lxml和Iterparse解析大型XML文件

使用Python lxml和Iterparse解析大型XML文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python lxml和Iterparse解析大型XML文件】教程文章相关的互联网学习教程文章

【原创】Android多个xml文件的使用【代码】

XML文件(2)--使用DOM4J示例【代码】

tomcat不需要重启热部署xml文件【代码】

Mybatis映射.xml文件报错【图】

xml文件参数类型有问题【代码】

Mybatis中mybatis-config.xml文件的解析【代码】

自动帮助创建android资源xml文件的网站

IDEA开发工具，tomcat环境下启动maven项目失败，无法找到mapper目录下的xml文件

SQL 映射 XML 文件【代码】【图】

InputStream流解析 XML文件【代码】

50.使用DOM4J解析XML文件【代码】

第三十九讲：Android之AndroidManifest.xml文件中注册权限

将 xml 文件转为 DataTable【代码】

VB.NET 将JSON格式的字符串保存到XML文件中【代码】【图】

pom.xml 识别xml文件【代码】

PYTHON - 相关标签

XML - 相关标签

文件 - 相关标签

XML - 最新教程

XML - 最热教程