首页 / HTML / Java爬虫系列：使用Jsoup解析HTML

Java爬虫系列：使用Jsoup解析HTML

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Java爬虫系列：使用Jsoup解析HTML，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3850字，纯文字阅读大概需要6分钟。

内容图文

一、Jsoup自我介绍

我是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，用Java写爬虫的同行们十之八九用过我。为什么呢？因为我在这个方面功能强大、使用方便。不信的话，可以继续往下看，代码是不会骗人的。

二、Jsoup解析html

一堆的代码，不是程序员的人们怎么能看懂呢？这个就需要我这个html解析专家出场了。

下面通过案例展示如何使用Jsoup进行解析，案例中将获取博客园首页的标题和第一页的博客文章列表

Java爬虫系列：使用Jsoup解析HTML - 文章图片

引入依赖

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.12.1</version>
</dependency>

实现代码。实现代码之前首先要分析下html结构。标题是<title>不用说了，那文章列表呢？按下浏览器的F12，查看页面元素源码，你会发现列表是一个大的div，id="post_list",每篇文章是小的div,class="post_item" Java爬虫系列：使用Jsoup解析HTML - 文章图片

接下来就可以开始代码了，Jsoup核心代码如下（整体源码会在文章末尾给出）：

/**
                 * 下面是Jsoup展现自我的平台
                 */
                //6.Jsoup解析html
                Document document = Jsoup.parse(html);
                //像js一样，通过标签获取title
                System.out.println(document.getElementsByTag("title").first());
                //像js一样，通过id 获取文章列表元素对象
                Element postList = document.getElementById("post_list");
                //像js一样，通过class 获取列表下的所有博客
                Elements postItems = postList.getElementsByClass("post_item");
                //循环处理每篇博客
                for (Element postItem : postItems) {
                    //像jquery选择器一样，获取文章标题元素
                    Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");
                    System.out.println("文章标题:" + titleEle.text());;
                    System.out.println("文章地址:" + titleEle.attr("href"));
                    //像jquery选择器一样，获取文章作者元素
                    Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");
                    System.out.println("文章作者:" + footEle.text());;
                    System.out.println("作者主页:" + footEle.attr("href"));
                    System.out.println("*********************************");
                }

根据以上代码你会发现，我通过Jsoup.parse(String html)方法对httpclient获取到的html内容进行解析获取到Document，然后document可以有两种方式获取其子元素：像js一样可以通过getElementXXXX的方式和像jquery 选择器一样通过select()方法。无论哪种方法都可以，我个人推荐用select方法处理。对于元素中的属性，比如超链接地址，可以使用element.attr(String)方法获取，对于元素的文本内容通过element.text()方法获取。

执行代码，查看结果（不得不感慨博客园的园友们真是太厉害了，从上面分析首页html结构到Jsoup分析的代码执行完，这段时间首页多了那么多文章）
由于新文章发布的太快了，导致上面的截图和这里的输出有些不一样。

三、Jsoup的其他用法

我，Jsoup，除了可以在httpclient大哥的工作成果上发挥作用，我还能自己独立干活，自己抓取页面，然后自己分析。分析的本领已经在上面展示过了，下面来展示自己抓取页面，其实很简单，所不同的是我直接获取到的是document，不用再通过Jsoup.parse()方法进行解析了。

Java爬虫系列：使用Jsoup解析HTML - 文章图片

除了能直接访问网上的资源，我还能解析本地资源：

代码：

public static void main(String[] args) {
        try {
            Document document = Jsoup.parse(new File("d://1.html"), "utf-8");
            System.out.println(document);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

四、Jsoup另一个值得一提的功能

你肯定有过这种经历，在你的页面文本框中，如果输入html元素的话，保存后再查看很大概率会导致页面排版乱七八糟，如果能对这些内容进行过滤的话，就完美了。

刚好我Jsoup就能做到。

public static void main(String[] args) {
        String unsafe = "<p><a href='网址' onclick='stealCookies()'>博客园</a></p>";
        System.out.println("unsafe: " + unsafe);
        String safe = Jsoup.clean(unsafe, Whitelist.basic());
        System.out.println("safe: " + safe);
    }

通过Jsoup.clean方法，用一个白名单进行过滤。执行结果：

unsafe: <p><a href='网址' onclick='stealCookies()'>博客园</a></p>
safe: <p><a rel="nofollow">博客园</a></p>

五、结束语

通过以上大家相信我很强大了吧，不仅可以解析HttpClient抓取到的html元素，我自己也能抓取页面dom，我还能load并解析本地保存的html文件。

此外，我还能通过一个白名单对字符串进行过滤，筛掉一些不安全的字符。

如果有想学习java的程序员，可来我们的java学习扣qun：830783865，免费送java的视频教程噢！我每晚上8点还会在群内直播讲解Java知识，欢迎大家前来学习哦

内容总结

以上是互联网集市为您收集整理的Java爬虫系列：使用Jsoup解析HTML全部内容，希望文章能够帮你解决Java爬虫系列：使用Jsoup解析HTML所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/820949.html

来源：【匿名】

【上一篇】java – 错误org.apache.velocity：ResourceManager：无法在任何资源加载器中找到资源’xxx.html.vm’【下一篇】PHP 和 HTML

更多 ►

【Java爬虫系列：使用Jsoup解析HTML】教程文章相关的互联网学习教程文章

jsoup html采集器

package com.forex.collect;import java.io.IOException;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Random;import javax.mail.MessagingException;import org.jsoup.Connection.Method;import org.jsoup.Connection.Response;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class HexunColle...

Jsoup解析html页面实现CSDN博客客户端【图】

这段时间课比较少，我用Jsoup解析html写了一个阅读CSDN博客的app。已经实现的功能有：1、阅读博客频道首页最新|最热的文章：2、浏览所有专栏&阅读其中的文章：3、阅读热门文章：4、查看指定id用户的所有文章：整个程序运行起来的样子大概就是这个样子..核心代码：下载指定的html页面 ——> 使用Jsoup解析，获取自己需要的元素。了解Jsoup的同学都知道很简单的。由于时间&水平有限，app界面很简陋，可能会有些BUG。而且有一个问题没...

Jsoup处理html空格乱码问题

由于在html中空格只能用表示，当运用Jsoup抓取html页面后，我们将html页面进行解析时，Java对html页面的代码不识别，输入到控制台时出现乱码，在网上查了很多资料都没有找到很好的解决办法，最后在一篇论坛中说到“运用字符串替换”可以进行解决，于是运用简单的字符串替换原理对此进行处理。对其替换处理后再对html文件进行解析。具体实现代码如下：//参数说明：oldFile为所需要替换的文件，即为原文件； newFile为替换后新的文...

【jsoup的学习礼记】设置一个元素的HTML内容【代码】

问题你需要一个元素中的HTML内容方法可以使用Element中的HTML设置方法具体如下：Element div = doc.select("div").first(); // <div></div> div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div> div.prepend("<p>First</p>");//在div前添加html内容 div.append("<p>Last</p>");//在div之后添加html内容 // 添完后的结果: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div>Element span = doc.select("span"...

jsoup解析HTML DOM

使用jsoup 解析HTML ，使用与JS操作DOM类似。实例代码：import java.io.IOException;import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;public class ParserHtml {public static void main(String[] args) throws IOException {String url = "http://www.jd.com/";//可以根据情况选择POST,GET请求URLDocument doc = Jsoup.connect(url).data("query", ...

【转载】使用Jsoup解析html网页

一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，可以看作...

java – 使用jsoup检索html内联样式属性值【代码】

有人帮助我使用jsoup检索此示例中text-align样式的值吗？<th style="text-align:right">4389</th>在这里,我希望得到正确的价值谢谢！解决方法:您可以检索元素的style属性,然后通过以下方式将其拆分：. 例：final String html = "<th style=\"text-align:right\">4389</th>";Document doc = Jsoup.parse(html, "", Parser.xmlParser()); // Using the default html parser may remove the style attribute Element th = doc.select...

使用jsoup从HTML中提取所有链接的例子【图】

字节顺序记号（英：byte-order mark，BOM）是位于码点 U+FEFF 的统一码字符（"零宽度无断空白"）。当以 UTF-16 或 UTF-32 来将UCS/统一码字符所组成的字串编码时，这个字符被用来标示其字节序。它常被用来当做标示文件是以 UTF-8 、 UTF-16 或 UTF-32 编码的记号。 class cryption { function en($str,$key) { $ret=''; $str = base64_encode ($str); for ($i=0; $i $d_str=substr($str, $i, 1); $int =ord($d_str); $...

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。回复内容：RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。phpquery

javascript-关于Jsoup解析html巨大问题！难倒我了，谢谢各位。【图】

我现在想解析每个标签里面的的值，但是现在有个问题就是有的时候有8个值，有的时候有4个值，我现在就想解析出每个内的前四个值，不在乎他有多少值。（注意：tr标签若干）回复内容：我现在想解析每个标签里面的的值，但是现在有个问题就是有的时候有8个值，有的时候有4个值，我现在就想解析出每个内的前四个值，不在乎他有多少值。（注意：tr标签若干）按题主给出的html，可以这样:Document document = Jsoup.parse(html); ...

使用Jsoup抓取页面的数据

需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网　　这里贴一下我用到的 Java工程的测试代码　package com.javen.Jsoup;import java.io.IOException;import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;public class JsoupTest {static String url="http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html";/*** @pa...

Jsoup爬取页面的数据和理解HTTP消息头_html/css_WEB-ITnose

推荐一本书：黑客攻防技术宝典.Web实战篇；顺便留下一个疑问：是否能通过jsoup大量并发访问web或者小型域名服务器，使其瘫痪？其实用jsoup熟悉的朋友可以用它解析url来干一件很无耻的事（源码保密）。呵呵，接下来简单的介绍下JSOUP。 jsoup 是一款基于Java 的HTML解析器，可直接解析某个URL地址、HTML文本字符串、HTML文件。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作...

【Jsoup学习礼记】解析一个HTML字符串_html/css_WEB-ITnose

存在问题来自用户输入，一个文件或一个网站的HTML字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整，或想修改它。怎么办？jsonu能够帮你轻松解决这些问题解决方法使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码： String html = "First parse" + "Parsed HTML into a doc.";Document doc = Jsoup.parse(html); 描述 parse(String html, String baseUr...

【Jsoup学习礼记】从元素抽取属性，文本和HTML_html/css_WEB-ITnose

问题在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。方法要取得一个属性的值，可以使用Node.attr(String key) 方法对于一个元素中的文本，可以使用Element.text()方法对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法示例： String html = "An example link.";Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现...

【jsoup的学习礼记】设置一个元素的HTML内容_html/css_WEB-ITnose

问题你需要一个元素中的HTML内容方法可以使用Element中的HTML设置方法具体如下： Element div = doc.select("div").first(); // div.html("lorem ipsum"); // lorem ipsumdiv.prepend("First");//在div前添加html内容div.append("Last");//在div之后添加html内容// 添完后的结果: Firstlorem ipsumLastElement span = doc.select("span").first(); // Onespan.wrap("");// 添完后的结果: One 说明 Element.html(Strin...

首页 / HTML / Java爬虫系列：使用Jsoup解析HTML

Java爬虫系列：使用Jsoup解析HTML

内容导读

内容图文

内容总结

内容备注

内容手机端

【Java爬虫系列：使用Jsoup解析HTML】教程文章相关的互联网学习教程文章

jsoup html采集器

Jsoup解析html页面实现CSDN博客客户端【图】

Jsoup处理html空格乱码问题

【jsoup的学习礼记】设置一个元素的HTML内容【代码】

jsoup解析HTML DOM

【转载】使用Jsoup解析html网页

java – 使用jsoup检索html内联样式属性值【代码】

使用jsoup从HTML中提取所有链接的例子【图】

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

javascript-关于Jsoup解析html巨大问题！难倒我了，谢谢各位。【图】

使用Jsoup抓取页面的数据

Jsoup爬取页面的数据和理解HTTP消息头_html/css_WEB-ITnose

【Jsoup学习礼记】解析一个HTML字符串_html/css_WEB-ITnose

【Jsoup学习礼记】从元素抽取属性，文本和HTML_html/css_WEB-ITnose

【jsoup的学习礼记】设置一个元素的HTML内容_html/css_WEB-ITnose

JAVA - 相关标签

HTML - 相关标签

爬虫 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程