首页 / XML / Python XML-处理未关闭的令牌

Python XML-处理未关闭的令牌

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python XML-处理未关闭的令牌，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1895字，纯文字阅读大概需要3分钟。

内容图文

我正在阅读数百个XML文件,并使用xml.etree.ElementTree对其进行解析.

快速背景刚刚过去：
这些XML文件在某一时刻是完全有效的,但是以某种方式在历史上对其进行处理时,复制/粘贴它们的过程可能损坏了它们. (结果是一个冲洗问题/语句未关闭,如果您在意的话,请参阅我在… Python shutil copyfile – missing last few lines上进行的调查所获得的有益帮助).

无论如何回到这个问题的重点.
我仍然想读这些有效XML的前十万行左右.文件仅缺少6MB文件的最后4或5KB.但是,如前所述,该文件只是“切出”.它看起来像这样：

</Maintag>




<Maintag>
    <Change_type>NQ</Change_type>
    <Name>Atlas</Name>
    <Test>ATLS</Test>
    <Other>NYSE</Other>
    <Scheduled_E

其中(也许很明显)Scheduled_E是应该是另一个属性< .Scheduled_Event>的开头.但是文件被剪短了.再一次,在文件中的这一点之前,有几千个“好”“ Maintag”条目,我想读入它们,它们接受作为不可恢复的失败的截止条目(以及显然应该出现的所有内容).

一种简单但不完整的处理方法可能是简单地-在XML预处理之前-查找字符串< ./ Maintag>的最后一个实例.文件中的内容,然后将其后的内容(有时会损坏)替换为“ opening”标签.同样,这至少让我处理了仍然存在且有效的内容.

如果有人想帮助我解决这种字符串替换问题,请首先打开以下标签：

<?xml version="1.0" encoding="ISO-8859-1" ?>
<FirstTag>
    <Source FileName="myfile">

我希望比这更容易,可能会有一个elementtree或beautifulsoup或其他方式来处理这种情况…我已经做了相当多的搜索,而且似乎没有什么容易/显而易见的.

谢谢

解决方法:

对于处理未封闭元素-或本题标题中的令牌-,我建议尝试使用lxml. lxml的XMLParser具有documented的恢复选项：

recover – try hard to parse through broken XML

例如,给定一个损坏的XML,如下所示：

from lxml import etree

xml = """
<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E
"""
parser = etree.XMLParser(recover=True)
doc = etree.fromstring(xml, parser=parser)
print(etree.tostring(doc))

由上述代码打印的恢复的XML如下：

<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E/></Maintag></root>

内容总结

以上是互联网集市为您收集整理的Python XML-处理未关闭的令牌全部内容，希望文章能够帮你解决Python XML-处理未关闭的令牌所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/662207.html

来源：【匿名】

【上一篇】python-lxml和in 【下一篇】PHP和JAVA的XML-RPC中文问题解决办法

更多 ►

【Python XML-处理未关闭的令牌】教程文章相关的互联网学习教程文章

Python XML-处理未关闭的令牌【代码】

我正在阅读数百个XML文件,并使用xml.etree.ElementTree对其进行解析. 快速背景刚刚过去：这些XML文件在某一时刻是完全有效的,但是以某种方式在历史上对其进行处理时,复制/粘贴它们的过程可能损坏了它们. (结果是一个冲洗问题/语句未关闭,如果您在意的话,请参阅我在… Python shutil copyfile – missing last few lines上进行的调查所获得的有益帮助). 无论如何回到这个问题的重点.我仍然想读这些有效XML的前十万行左右.文件仅缺少...

JavaScript-意外令牌<读取xml文件【代码】

我进行ajax通话时遇到问题. 我的代码是：$('#regLink').click(function(event){event.preventDefault();urlLink = $('#regLink').attr('name') + $('input[name="email"]').val();$.ajax({type: 'GET',dataType: 'jsonp',jsonpCallback: 'callback',url: urlLink,success: function (xml) {var code = $(xml).find('int').text();if(code == '1') {console.log('email gravado com sucesso');}else {console.log('algo correu mal'...

java – 无法验证提供的CSRF令牌.仅使用xml【代码】

我正在学习Spring框架,我正在使用xml配置文件来实现安全性：<security:http once-per-request="false" use-expressions="true"><security:intercept-url pattern="/admin" access="permitAll" /><security:intercept-url pattern="/createoffer" access="isAuthenticated()" /><security:intercept-url pattern="/docreateoffer" access...

XML - 最热教程

基于DOM4j和POI实现的XML文件转换为XLS...php+mysql+xml实现的问卷调查（代码）XMLHttpRequest中responseText如何获取...C# XELEMENT 解析xml文件(字符串)Maven 项目之pom.xml 提示Unknow Error Android中序列化对象到XMl 和 XML反序列...用Java将XML文档保存在数据库中(Hibern...c# – 如何更新XML节点？解决java.lang.ClassNotFoundException...php – 通过SimpleXMLElement循环访问属...

首页 / XML / Python XML-处理未关闭的令牌

Python XML-处理未关闭的令牌

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python XML-处理未关闭的令牌】教程文章相关的互联网学习教程文章

Python XML-处理未关闭的令牌【代码】

JavaScript-意外令牌<读取xml文件【代码】

java – 无法验证提供的CSRF令牌.仅使用xml【代码】

PYTHON - 相关标签

XML - 相关标签

XML - 最新教程

XML - 最热教程