首页 / JAVA / java – 遍历DOM树时的Jsoup节点哈希码冲突

java – 遍历DOM树时的Jsoup节点哈希码冲突

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java – 遍历DOM树时的Jsoup节点哈希码冲突，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1552字，纯文字阅读大概需要3分钟。

内容图文

我正在使用java jsoup来构建HTML DOM树,其中使用了Node.hashCode().但是我发现在遍历DOM树时有很多哈希码冲突,使用以下代码：

doc.traverse(new NodeVisitor(){

    @Override
    public void head(Node node, int depth) {

        System.out.println("node hash: "+ node.hashCode());

        /* some other operations */
    }

    @Override
    public void tail(Node node, int depth) {
        // TODO Auto-generated method stub

        /* some codes */
    }
}

因此,当运行它时,即使在前几个输出中,我也会看到许多相同的哈希码.

哈希码非常大,我不期望这种奇怪的行为.我使用了jsoup-1.8.1.
任何意见都将非常感谢,谢谢.

解决方法:

Note: This bug has been fixed in jSoup 1.8.2, so my answer is no longer relevant.

它可能是jSoup源代码中的一个错误.从source：

@Override
public int hashCode() {
   int result = parentNode != null ? parentNode.hashCode() : 0;
   // not children, or will block stack as they go back up to parent)
   result = 31 * result + (attributes != null ? attributes.hashCode() : 0);
   return result;
}

我不是Java专家,但如果它们具有相同的属性,它看起来可能会为不同的节点返回相同的值. (和同一位家长一样,感谢@alkis的评论)

编辑：我可以重现这个.使用以下HTML：

<html>
    <head>
    </head>
    <body>
        <div style="blah">TODO: write content</div>
        <div style="blah">Nothing here</div>
        <p style="test">Empty</p>
        <p style="nothing">Empty</p>
    </body>
</html>

以下代码：

String html = //HTML posted above

Document doc = Jsoup.parse(html);

Elements elements = doc.select("[style]");
for (Element e : elements) {
   System.out.println(e.hashCode());
}

它给：

-148184373
-148184373
-1050420242
2013043377

在计算哈希时,它似乎完全忽略了内容文本,只有属性很重要.

您应该实现自己的解决方法.

Bug报告了here.

内容总结

以上是互联网集市为您收集整理的java – 遍历DOM树时的Jsoup节点哈希码冲突全部内容，希望文章能够帮你解决java – 遍历DOM树时的Jsoup节点哈希码冲突所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/808243.html

来源：【匿名】

【上一篇】java.lang.ClassCastException: java.util.ArrayList cannot be cast to com.github.pagehelper.Page page 【下一篇】JAVA/JSP学习系列之五

更多 ►

【java – 遍历DOM树时的Jsoup节点哈希码冲突】教程文章相关的互联网学习教程文章

java中用jsoup抓取网页源码，并批量下载图片

一、导入jsoup的核心jar包jsoup-xxx.jarjar包下载地址：jsoup-1.8.2.jar 中文API地址：http://www.open-open.com/jsoup/parsing-a-document.htm二、java中用jsoup抓取网页源码，并批量下载图片package com.dgh.test;import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.UnsupportedEncodingException; import java.net.HttpURLConnection; impo...

java基于jsoup小说爬虫【图】

心血来潮想看小说，却被广告弄得头大，然后自己写了个小说爬虫，可以下载成txt看，也可以直接在线看，代码持续更新中。。。。。。码云:https://gitee.com/sen_yang/SanMuYuanBook 因为没用数据库，数据都是现爬现看的，所以环境比较容易装原文：https://www.cnblogs.com/yangsen-java/p/13397909.html

回到javaweb的第十七天（一）（Jsoup document全部内容、element部分内容）【图】

document对象：原文：https://www.cnblogs.com/startFrom0/p/12830353.html

Jsoup简介——使用Java抓取网页数据

概述 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；jsoup是基于MIT协议发布的，可放心使用于商业项目。关于Jsoul的更多介绍，请访问Jsoul的官网：http://jsoup.org/关...

Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据【代码】【图】

在涉及地址服务时，经常需要用到地址信息的获取，而行政区划可能不定期的发生变化，所以我们需要获取最新的行政区划信息。因行政区划数据量较大，Java中可以使用Jsoup进行数据的获取、处理。大家经常用到的行政区划数据，可从中华人民共和国民政部网站上获取，响应请求链接如下所示：http://www.mca.gov.cn/article/sj/xzqh/2019/界面如下图所示：截至当前对应的行政区划数据请求链接为：http://www.mca.gov.cn/article/sj/xzqh/20...

java – 使用jsoup检索html内联样式属性值【代码】

有人帮助我使用jsoup检索此示例中text-align样式的值吗？<th style="text-align:right">4389</th>在这里,我希望得到正确的价值谢谢！解决方法:您可以检索元素的style属性,然后通过以下方式将其拆分：. 例：final String html = "<th style=\"text-align:right\">4389</th>";Document doc = Jsoup.parse(html, "", Parser.xmlParser()); // Using the default html parser may remove the style attribute Element th = doc.select...

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。回复内容：RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。phpquery

Atitit.html解析器的选型?jsoup?nsoup?，java?c#?.net?版本_html/css_WEB-ITnose

Atitit.html解析器的选型 jsoup nsoup ，java c# .net 版本 1. 框架选型的要求1 1.1. 文档多1 1.2. 跨平台1 2. html解析器特性：1 2.1. jQuery 风格的 CSS 选择器1 2.2. 操作 HTML 文档.1 3. 浏览器解析html的原理以及防止乱码2 4. 把meta标签放在head区域的最前面4 5. HTML解析器4 6. 参考8 6.1.1. atitit. java?jsoup?html table的读取解析总结 -?attilax的专栏 ...8 1. 框架选型的要求 ...

jsoup1.9.2发布，Java的HTML解析器_html/css_WEB-ITnose

jsoup 1.9.2 发布，改进内容包括：改进： 1. In XML documents, detect the charset from the XML prolog -- Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed...

java爬虫之Jsoup【代码】【图】

maven依赖： <dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.5.3</version> </dependency>关键代码 //爬取网址 String url= "http://www.yuetutu.com/"; Document document = Jsoup.connect(url).get(); //compile()中为Xpath语法，可在f12中校验 Elements elements = Xsoup.compile("//div[@class='item']").evaluate(document).getElements(); for(Element element : elements){...

Java 之jsoup 三种解析【代码】

Java 之jsoup 三种解析 1.操作xml文档 1. 解析(读取)：将文档中的数据读取到内存中 2. 写入：将内存中的数据保存到xml文档中。持久化的存储 2..解析xml的方式： 1. DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树 1.优点：操作方便，可以对文档进行CRUD的所有操 2 .缺点：占内存 2. SAX：逐行读取，基于事件驱动的。 1. 优点：不占内...

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决【图】

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决凯哥Java 凯哥java 问题描述：在使用jsoup爬取其他网站数据的时候，发现class是带空格的多选择，如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。爬取网站页面结构如下：其中文章列表的div为：<div class="am-cf inner_li inner_li_abtest"></div> 我们可以看到其class的值为：am-cf inner_li inner_li_abtest。带空格的。...

SpringBoot Jsoup爬取小红书文章内容利用JavaCV自动生成视频并发布到抖音【代码】

一、引入相关maven 二、根据小红书文章链接爬取文章内容和图片三、根据图片、文字、音频等生成视频文件 1、生成视频工具类 2、上传视频到抖音一、引入相关maven<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.4</version></depe...

Java学习-063-Jsoup 请求页面 Content-Type 解析失败：org.jsoup.UnsupportedMimeTypeException: Unhandled content ty【代码】

使用 Jsoup 获取网站查询数据时，一直提示 Content-Type 失败，详细错误信息如下所示： 1 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml2 . Mimetype=application/javascript; charset=utf-8, URL=url 3 at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:770)4 at org.jsoup.helper.HttpConnection$Response.exe...

Java爬虫（Jsoup与WebDriver）【代码】【图】

一、Jsoup爬虫 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。以博客园首页为例 1、idea新建maven工程 pom.xml导入jsoup依赖<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version> </dependency>jsoup代码package com.blb;import org.jsoup.Jsoup; import org.jsoup...

首页 / JAVA / java – 遍历DOM树时的Jsoup节点哈希码冲突

java – 遍历DOM树时的Jsoup节点哈希码冲突

内容导读

内容图文

内容总结

内容备注

内容手机端

【java – 遍历DOM树时的Jsoup节点哈希码冲突】教程文章相关的互联网学习教程文章

java中用jsoup抓取网页源码，并批量下载图片

java基于jsoup小说爬虫【图】

回到javaweb的第十七天（一）（Jsoup document全部内容、element部分内容）【图】

Jsoup简介——使用Java抓取网页数据

Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据【代码】【图】

java – 使用jsoup检索html内联样式属性值【代码】

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

Atitit.html解析器的选型?jsoup?nsoup?，java?c#?.net?版本_html/css_WEB-ITnose

jsoup1.9.2发布，Java的HTML解析器_html/css_WEB-ITnose

java爬虫之Jsoup【代码】【图】

Java 之jsoup 三种解析【代码】

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决【图】

SpringBoot Jsoup爬取小红书文章内容利用JavaCV自动生成视频并发布到抖音【代码】

Java学习-063-Jsoup 请求页面 Content-Type 解析失败：org.jsoup.UnsupportedMimeTypeException: Unhandled content ty【代码】

Java爬虫（Jsoup与WebDriver）【代码】【图】

JAVA - 相关标签

DOM - 相关标签

哈希 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程