首页 / XML / Python XML-处理未关闭的令牌
Python XML-处理未关闭的令牌
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python XML-处理未关闭的令牌,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1895字,纯文字阅读大概需要3分钟。
内容图文
![Python XML-处理未关闭的令牌](/upload/InfoBanner/zyjiaocheng/663/27e3a049efcb4b4a91b86e76065fb95c.jpg)
我正在阅读数百个XML文件,并使用xml.etree.ElementTree对其进行解析.
快速背景刚刚过去:
这些XML文件在某一时刻是完全有效的,但是以某种方式在历史上对其进行处理时,复制/粘贴它们的过程可能损坏了它们. (结果是一个冲洗问题/语句未关闭,如果您在意的话,请参阅我在… Python shutil copyfile – missing last few lines上进行的调查所获得的有益帮助).
无论如何回到这个问题的重点.
我仍然想读这些有效XML的前十万行左右.文件仅缺少6MB文件的最后4或5KB.但是,如前所述,该文件只是“切出”.它看起来像这样:
</Maintag>
<Maintag>
<Change_type>NQ</Change_type>
<Name>Atlas</Name>
<Test>ATLS</Test>
<Other>NYSE</Other>
<Scheduled_E
其中(也许很明显)Scheduled_E是应该是另一个属性< .Scheduled_Event>的开头.但是文件被剪短了.再一次,在文件中的这一点之前,有几千个“好”“ Maintag”条目,我想读入它们,它们接受作为不可恢复的失败的截止条目(以及显然应该出现的所有内容).
一种简单但不完整的处理方法可能是简单地-在XML预处理之前-查找字符串< ./ Maintag>的最后一个实例.文件中的内容,然后将其后的内容(有时会损坏)替换为“ opening”标签.同样,这至少让我处理了仍然存在且有效的内容.
如果有人想帮助我解决这种字符串替换问题,请首先打开以下标签:
<?xml version="1.0" encoding="ISO-8859-1" ?>
<FirstTag>
<Source FileName="myfile">
我希望比这更容易,可能会有一个elementtree或beautifulsoup或其他方式来处理这种情况…我已经做了相当多的搜索,而且似乎没有什么容易/显而易见的.
谢谢
解决方法:
对于处理未封闭元素-或本题标题中的令牌-,我建议尝试使用lxml. lxml的XMLParser具有documented的恢复选项:
recover – try hard to parse through broken XML
例如,给定一个损坏的XML,如下所示:
from lxml import etree
xml = """
<root>
<Maintag>
<Change_type>NQ</Change_type>
<Name>Atlas</Name>
<Test>ATLS</Test>
<Other>NYSE</Other>
<Scheduled_E
"""
parser = etree.XMLParser(recover=True)
doc = etree.fromstring(xml, parser=parser)
print(etree.tostring(doc))
由上述代码打印的恢复的XML如下:
<root>
<Maintag>
<Change_type>NQ</Change_type>
<Name>Atlas</Name>
<Test>ATLS</Test>
<Other>NYSE</Other>
<Scheduled_E/></Maintag></root>
内容总结
以上是互联网集市为您收集整理的Python XML-处理未关闭的令牌全部内容,希望文章能够帮你解决Python XML-处理未关闭的令牌所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。