java-在使用JSoup保留换行符的同时删除HTML实体
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了java-在使用JSoup保留换行符的同时删除HTML实体,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1150字,纯文字阅读大概需要2分钟。
内容图文
![java-在使用JSoup保留换行符的同时删除HTML实体](/upload/InfoBanner/zyjiaocheng/653/691599d57f344e409b142a5dad478096.jpg)
我一直在用JSoup解析歌词,到目前为止它一直很棒,但是遇到了问题.
我可以使用Node.html()返回所需节点的完整HTML,这样保留换行符:
Glóandi augu, silfurnátt
<br />Blóð alvöru, starir á
<br />Óður hundur er í vígamóð, í maga... mér
<br />
<br />Kolniður gref, kvik sem dreg hér
<br />Kolniður svart, hvergi bjart né
但是,如您所见,保留HTML实体和标记具有不幸的副作用.
但是,如果我使用Node.text(),则可以获得更好的外观,并且没有标签和实体:
Glóandi augu, silfurnátt Blóe alv?ru, starir á óeur hundur er í vígamóe, í maga... mér Kolnieur gref, kvik sem dreg hér Kolnieur svart,
这有另一个不幸的副作用,即删除了换行符并压缩为单行.
只需替换< br />在调用Node.text()之前从节点上获得相同的结果,并且该方法似乎将文本压缩到方法本身的单行中,而忽略换行符.
是否有可能两全其美,可以正确地替换标签和实体以保留换行符,还是有另一种方法或方法可以解码实体并删除标签而不必手动替换它们?
解决方法:
(免责声明)我没有使用过此API …
但是快速浏览一下文档建议您可以访问每个后代节点并转储其文本内容.当< br>等特殊标签插入时,可以插入中断遇到.
TextNode.getWholeText()呼叫看起来也很有用.
内容总结
以上是互联网集市为您收集整理的java-在使用JSoup保留换行符的同时删除HTML实体全部内容,希望文章能够帮你解决java-在使用JSoup保留换行符的同时删除HTML实体所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。