Java XML Parsing:避免实体引用解析
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Java XML Parsing:避免实体引用解析,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1528字,纯文字阅读大概需要3分钟。
内容图文
![Java XML Parsing:避免实体引用解析](/upload/InfoBanner/zyjiaocheng/709/98771089aea949b39529ae3b008d8a22.jpg)
我目前正在使用DOM解析器解析XHTML文档,例如:
final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setValidating(false);
final DocumentBuilder db = dbf.newDocumentBuilder();
db.setEntityResolver(MY_ENTITY_RESOLVER);
db.setErrorHandler(MY_ERROR_HANDLER);
...
final Document doc = db.parse(inputSource);
我的问题是,当我的文档包含实体引用时,例如:
<p>€</p>
我的解析器为该内容创建一个Text节点,其中包含“€”而不是“& euro;”.也就是说,它正在以它应该的方式解析实体(XHTML 1.0 Strict DTD链接到ENTITIES Latin1 DTD,后者又建立了“& euro;”与“€”的等价性).
问题是,我不希望解析器做这样的事情.我想保留“& euro;”文本未经修改.
我已经尝试过了:
final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);
但:
>我不喜欢这个,因为我担心这可能会使一些解析器实现无法从XHTML 1.0 Strict DTD导航到ENTITIES Latin1 DTD,因此不会考虑“& euro;”作为声明的实体.
>当我这样做时,它奇怪地创建了两个节点:一个“磅”实体节点,以及一个带有“€”符号的Text节点.
有任何想法吗?是否可以在DOM Parser中配置它,而无需预先处理XHTML并替换所有“&”其他东西的符号?…
解决方案可以是DOM解析器,也可以是SAX解析器,我不介意使用SAX解析,然后使用转换创建我的DOM …
此外,我无法切换到非标准的XML解析库.没有jdom,没有jsoup,没有HtmlCleaner等.
非常感谢.
解决方法:
我采用的方法是用Xerces作为纯文本处理的唯一标记替换任何实体.转换为Document对象后,标记将替换为Entity Reference对象.
请参阅http://sourceforge.net/p/commonclasses/code/14/tree/trunk/src/com/redhat/ecs/commonutils/XMLUtilities.java中的convertStringToDocument()函数
内容总结
以上是互联网集市为您收集整理的Java XML Parsing:避免实体引用解析全部内容,希望文章能够帮你解决Java XML Parsing:避免实体引用解析所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。