【使用Java 6和Jsoup 1.7.3,如何在同级文本不在元素内的情况下解析此HTML?】教程文章相关的互联网学习教程文章

用Jsoup对用户输入内容的HTML安全过滤_html/css_WEB-ITnose【图】

在网站使用input或textarea提供给用户可输入内容的功能,比如发帖子,发文章,发评论等等。这时候需要后端程序对输入内容作安全过滤,比如 官方API地址: http://jsoup.org/apidocs/org/jsoup/safety/Whitelist.html 发现来源: http://www.oschina.net/question/12_10232 , 据此自己写了个自定义的帮助类: package com.cssor.safety; import org.jsoup.Jsoup;import org.jsoup.helper.StringUtil;import org.jsoup.safety...

【Jsoup】HTML解析器,轻松获取网页内容_html/css_WEB-ITnose

Jsoup简介 jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 Jsoup.jpg 官网地址:http://jsoup.org/ 在官网中下载 jsou-1.8.3.jar 文件,添加到自己项目的lib库中,便可使用Jsoup提供的api,官网中也提供了一套使用指南(Cookbook),便于开发者借鉴。 Jsoup解析HTML得到一个Docum...

Jsoup代码解读之五-parser(中)_html/css_WEB-ITnose

代码结构 先介绍以下parser包里的主要类: Parser Jsoup parser的入口facade,封装了常用的parse静态方法。可以设置maxErrors,用于收集错误记录,默认是0,即不收集。与之相关的类有ParseError,ParseErrorList。基于这个功能,我写了一个PageErrorChecker来对页面做语法检查,并输出语法错误。 Token 保存单个的词法分析结果。Token是一个抽象类,它的实现有Doctype,StartTag,EndTag,Co...

Jsoup代码解读之四-parser(上)_html/css_WEB-ITnose

作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分,需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂,解析只是到DOM树为止,所以作为编译器入门倒是挺合适的。这一块不要指望囫囵吞枣,我们还是泡一杯咖啡,细细品味其中的奥妙吧。 基础知识 编译器 将计算机语言转化为另一种计算机语言(通常是更底层的语言,例如机器码、汇编、或者JVM字节码)的过程就叫做编...

Jsoup代码解读之七-实现一个CSSSelector_html/css_WEB-ITnose

当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup! select机制 Jsoup的select包里,类结构如下: 在最开始介绍Jsoup的时候,就已经说过NodeVisitor和Selector了。Selector是select部分的对外facade,而NodeVisitor则是遍历树的底层API,CSS Selector也是根据NodeVisitor实现的遍历。 Jsoup的se...

jsoup1.9.2发布,Java的HTML解析器_html/css_WEB-ITnose

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed...

jsoup:Java HTML解析器【图】

解析和遍历一个HTML文档 如何解析一个HTML文档: String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); (更详细内容可查看 解析一个HTML字符串.) 其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:没有关闭的标签 (比如: <p>Lorem <p>Ipsum parses to <p>Lore...

java-在使用JSoup保留换行符的同时删除HTML实体【代码】

我一直在用JSoup解析歌词,到目前为止它一直很棒,但是遇到了问题. 我可以使用Node.html()返回所需节点的完整HTML,这样保留换行符:Gl&oacute;andi augu, silfurn&aacute;tt <br />Bl&oacute;&eth; alv&ouml;ru, starir &aacute; <br />&Oacute;&eth;ur hundur er &iacute; v&iacute;gam&oacute;&eth;, &iacute; maga... m&eacute;r <br /> <br />Kolni&eth;ur gref, kvik sem dreg h&eacute;r <br />Kolni&eth;ur svart, hvergi bja...

使用Java 6和Jsoup 1.7.3,如何在同级文本不在元素内的情况下解析此HTML?【代码】

主要是我的问题是如何解析…<p>some text<br /> <br /> <strong>categorized: </strong>like this<br /> <br /></p>…我最终对使用Java和Jsoup获得“分类”,“像这样”这样的键值对感兴趣吗?我正在查看< strong>标签是一种我可以用来指示键的定界符,然后它后面的文本(不方便地不包含在标签中)需要我抓取作为值. 我认为对我来说挑战是“像这样”的部分不在一个元素中.它是一个同级节点,但是无法通过CSS选择,因此我无法通过Jsoup找到...

如何在JSoup Java中仅显示html标记?【代码】

我正在做一个学校项目,并且试图解析一个html网页以仅显示标签,就像下面没有关闭标签的输出一样. (我手工编码)<html><head> <title><basefont> <body> <h1><h2>到目前为止,这只是我的主要方法中的代码.public class ReadWithScanner { public static void main(String[] args) throws IOException {String URL ="http://csb.stanford.edu/class/public/pages/sykes_webdesign/05_simple.html";Document doc = Jsoup.connect(URL).g...

java-与Firefox和其他浏览器相比,Jsoup获得的HTML不同【代码】

我在一家名为Kabum的网上商店的某些网址上遇到了麻烦. 网址是http://www.kabum.com.br/cgi-local/kabum3/produtos/descricao.cgi?id=01:02:23:55:159 如果我在地址栏中输入该站点,或单击链接,则会看到该产品的页面,但是如果我使用Jsoup,则只会得到一个刷新到同一地址的页面. 尝试设置用户代理,引荐来源网址,并按照meta中的链接进行操作,但是我得到了相同的页面. 我的代码在这里:Document doc; String url = "http://www.kabum.com...

java – 使用JSoup进行Html解析【代码】

我试图解析以下URL的html: http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/ 获得“< p>”的文本包含教师姓名的标签.所需信息位于“< p>”内标签,但我无法使用JSoup检索标签.我不知道我做错了什么,因为当我将标签保存在Element对象中时,我们将其称为’b’,并且我调用b.getAllElements()它不会显示为其中一个元素.这不是Jsoup的getAllElements()方法吗?如果没有,有人可以向我解释我显然...

java – 使用jsoup编码Html字符【代码】

我必须将字符编码为Html:< to < > to > ' to " to &quot; & to &amp;我在PHP中寻找像htmlspecialchars这样的实用函数:String htmlspecialchars(String inputText)是否可以使用JSoup对这些字符进行编码? (我在Spring框架中找到了htmlEscape,但我不想仅仅为这个简单的函数使用Spring框架.)解决方法:JSoup是一个解析HTML的库. 我不认为你可以用它来将特殊字符编码成HTML. 最好的方法是编写自己的方法.只需从Spring中获取此方法,您...

java – 如何使用JSoup解析HTML文档以获取链接列表?【代码】

我试图解析http://www.craigslist.org/about/sites以构建一组文本/链接,以使用此信息动态加载程序.到目前为止,我已经这样做了:Document doc = Jsoup.connect("http://www.craigslist.org/about/sites").get(); Elements elms = doc.select("div.colmask"); // gets 7 countries在这个标签下面有我想要的doc.select(“div.state_delimiter,ul”)标签.我设置了我的迭代器并进行了一段时间的查看并调用了iterator.next().outerHtml()...

java – 使用JSoup设置HTML标签的属性【代码】

如何使用JSoup设置HTML标签的属性? 我想使用Jsoup Library在Java中设置tag->“img”的attribute->“src”.Elements img_attributes = doc.select("img[src^=/im]"); for(Element img_attribute: img_attributes) {String s = img_attribute.attr("src"); System.out.println(s); }此代码打印src值.我想更改src值.解决方法:您可以通过两种方式使用attr()方法执行此操作:循环或直接在Elements对象上:// In a loop for( Element im...

元素 - 相关标签