【python – XML标签名称上的美丽石汤案例敏感性】教程文章相关的互联网学习教程文章

python – lxml classic:获取除嵌套标签之外的文本内容?【代码】

这绝对是经典,但我在这里找不到答案.我正在使用lxml cssselect解析以下标记:<li><a href="/stations/1"><span class="num">3</span> Detroit</a></li>我想获得< li>的内容标签没有< span>的内容标签. 目前我有:stop_list = doc.cssselect('ol#stations li a') start = stop_list[0].text_content().strip()但这给了我3底特律.我怎么才能得到底特律?解决方法:元素的itertext方法返回节点文本数据的迭代器.对于你的< a> tag,’Det...

java – 如何在解析xml时检查空标签?【代码】

我正在使用Document对象从xml中提取所有标记.如果xml有一个空标记,我会得到一个空指针异常.我该如何防范这个?如何检查空标签?<USTrade> <CreditorId> <CustomerNumber>xxxx</CustomerNumber> <Name></Name> <Industry code="FY" description="Factor"/> </CreditorId> <DateReported format="MM/CCYY">02/2012</DateReported> <AccountNumber>54000</AccountNumber> <HighCreditAmount>0000299</HighCreditAmount> <BalanceAmoun...

C#注释含义(XML注释)标签及其含义(二)【代码】

原文链接:http://www.cnblogs.com/greatwang/archive/2011/11/09/2648250.html<typeparam>(C# 编程指南) <typeparam??name="name">description</typeparam>参数name?类型参数的名称。将此名称用双引号括起来?("?")。description?类型参数的说明。备注在泛型类型或方法声明的注释中应该使用?<typeparam>?标记描述类型参数。为泛型类型或方法的每个类型参数添加标记。有关更多信息,请参见泛型(C#?编程指南)。?<typeparam>?标记...

Python,lxml – 获取兄弟标签(大)孩子的文本【代码】

我有一个XML解析,这对我来说真的很棘手.<bundles><bundle><bitstreams><bitstream><id>1234</id></bitstream></bitstream><name>FOO</name></bundle><bundle> ... </bundle> </bundles>我想迭代这个XML并找到比特流内的所有id值,其中name元素的值为’FOO’.我对任何未命名为“FOO”的捆绑包都不感兴趣,捆绑包中可能有任意数量的捆绑包和任意数量的比特流. 我一直在使用tree.findall(‘./ bundle / name’)来查找FOO包,但这只返回一...

python – lxml通过regex查找标签【代码】

我正在尝试使用lxml来获取格式为的标记数组<TEXT1>TEXT</TEXT1><TEXT2>TEXT</TEXT2><TEXT3>TEXT</TEXT3>我试过用xml_file.findall("TEXT*")但是这会搜索文字星号. 我也尝试使用ETXPath,但似乎无法正常工作.是否有任何API函数可以使用它,因为假设TEXT被整数追加并不是最漂亮的解决方案.解决方法:是的,你可以使用regular expressions in lxml xpath. 这是一个例子:results = root.xpath("//*[re:test(local-name(), '^TEXT.*')]",na...

python – 如何构建html5lib解析器来处理xml和html标签的混合【代码】

我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务.我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个html标记(文件中的所有其他标记都是html).因此,使用常规html解析器时,树中不提供此标记.如何在bs4中构建一个解析器来获取...

python – XML标签名称上的美丽石汤案例敏感性

我正在尝试使用Beautiful Stone Soup(BSS)来修改具有区分大小写标记名称的现有XML.当BSS读入XML时,它会将所有标记名称强制转换为小写,并且在将其写回文件时,我找不到一种简单的方法来恢复原始大小写模式.这会导致下游问题,因为输出XML不再针对模式进行验证(因为模式期望原始大小写).我第一次阅读它时是否会设置一个标志,告诉BSS将标签名称视为区分大小写?解决方法:你尝试过ElementTree吗?毫无疑问,Beautiful Soup非常适合从HTML中...

c# – 嵌套标签无效的Xml反序列化【代码】

我需要将XML文件反序列化为对象.以下是XML内容:<?xml version="1.0" encoding="utf-8" ?> <PdfFile><PageTitle DocumentName="Sequence Diagram" Version="Version 4" >Title</PageTitle><LogoPath>C:\logo.png</LogoPath><Modules><Module Id="1" MainTitle="Module1"><SubModules><SubModule><Title>SubModule1</Title><Path>SubModule1 Path</Path><Description>SubModule1 Desc</Description></SubModule><SubModule><Title>S...

java – 使用ServletContainerInitializer时web.xml标签的等价物是什么?【代码】

我正在尝试使用从Spring的WebApplicationInitializer扩展的基于代码的类替换我的web.xml文件.我的web.xml文件有几个“env-entry”元素.我试图找出如何在我的WebApplicationInitializer类中设置这些,但没有运气.也许有人知道这些标签的代码相当于什么?public class MyWebApplicationInitializer implements WebApplicationInitializer {@Overridepublic void onStartup(ServletContext servletContext) throws ServletException {X...

c# – 从写入字符串的xml文件中删除标签?【代码】

这就是字符串中的数据:<temp><id>TGPU1</id><label>GPU</label><value>67</value></temp><temp><id>THDD1</id><label>ST3320620AS</label><value>34</value></temp><temp><id>FCPU</id><label>CPU</label><value>1430</value></temp>(还有更多,这只是原始输出的一小部分.)我想做的是通过一些快速代码(不是实际代码有多长,但执行需要多长时间)来提供它将删除所有<temp><id>TGPU1</id><label>GPU</label><value>并将其输出到一个新字...

php – SimpleXML – 剥离CDATA标签(或在XML中嵌入HTML标记)【代码】

我刚刚开始在PHP和Javascript环境中学习XML,我遇到了一个问题. 所以问题是我希望将HTML标记放在XML中,然后能够通过PHP提取它并将HTML嵌入到使用SimpleXML读取XML的不同文件中.我正在用一些东西回应它 echo $child-> asXML(); 但是,当然CDATA标签仍在那里,它不起作用.所以,我的问题是,是否有一种方法可以以不同的方式嵌入HTML标记,XML解析器可以忽略它,但可以在HTML文档中使用,或者B.从代码中剥离CDATA标记的方法?解决方法:只需在X...

java – 从XML中提取的文本中的标签带【代码】

我正在解析XML文档.我使用getTextContent()来获取我想要的特定部分的文本.我得到的文字有标签<italic> </italic> <sub> </sub>..还有一些.我想剥离这些标签并保留文本,而不管标签是什么. 我的文档看起来像这样<article><sec>Section 1</sec> <sec>Section 2<title>Title1</title><sec><title>Subtitle1</title><p>........<italic> </italic>...</p></sec><sec><title>Subtitle2</title><p>........<sub> </sub>...</p></sec></se...

Python lxml – 获取标签文本的索引【代码】

我有一个xml文件,其格式类似于docx,即:<w:r><w:rPr><w:sz w:val="36"/><w:szCs w:val="36"/></w:rPr><w:t>BIG_TEXT</w:t> </w:r>编辑:我需要在源xml中获得“BIG_TEXT”的索引,如:from lxml import etree text = open('/devel/tmp/doc2/word/document.xml', 'r').read()root = etree.XML(text)start = 0 for e in root.iter("*"):if e.text:offset = text.index(e.text, start)l = len(e.text)print 'Text "%s" at offset %s and...

c# – XML命名空间’clr-namespace:XXX’中不存在标签’Bootstrapper’【代码】

我得到了以下app.xml:<Application x:Class="WeDoneIt.WP2.App"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:local="clr-namespace:WeDoneIt.WP2"xmlns:phone="clr-namespace:Microsoft.Phone.Controls;assembly=Microsoft.Phone"xmlns:shell="clr-namespace:Microsoft.Phone.Shell;assembly=Microsoft.Phone"><Application.Resources><local...

python – lxml:clean_html用div替换html标签?【代码】

我正在使用lxml 3.1.0(与easy_install一起安装),并看到奇怪的结果:> from lxml.html.clean import clean_html > clean_html("<html><body><h1>hi</h1></body></html>") '<div><body><h1>hi</h1></body></div>'html标签正在被div取代. 根据http://lxml.de/lxmlhtml.html#cleaning-up-html,样本html也是如此 是什么赋予了?我是否遇到过lxml的bug,或者与libxml2版本不兼容,或者这是否有所预期?解决方法:我认为你需要一个单独留下pa...