首页 / JAVA / java – 使用JSoup进行屏幕刮擦

java – 使用JSoup进行屏幕刮擦

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java – 使用JSoup进行屏幕刮擦，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1551字，纯文字阅读大概需要3分钟。

内容图文

我想通过网络抓取从这个网站获取数据. http://myservices.ect.nl/tracing/objectstatus/Pages/Overview.aspx：

我以前使用JSoup来获取更多静态HTML网站,但是这个更难以实现,因为在我获得网站上的HTML表之前必须单击一个按钮,我不知道是否可以使用JSoup来操作按钮.

单击此按钮后,我得到一个HTML表,我想只获取数据是Barge的数据.

感谢您提示使用Firefox,现在我有了一些其他页面信息的表格.你能告诉我怎样才能获得表格信息？我得到的输出如下：

解决方法:

您必须使用Selenium HTML Unit Driver.

Selenium Info

Maven/Download Binary JAR

HTML Unit Driver

这是完整的工作示例.它将访问该网站,单击按钮,然后您可以从页面获取数据.

编辑：仅获取表值

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;
import org.openqa.selenium.support.ui.Select;

public class GetData {

    public static void main(String args[]) throws InterruptedException {
        WebDriver driver = new FirefoxDriver();
        driver.get("http://myservices.ect.nl/tracing/objectstatus/Pages/Overview.aspx");
        Thread.sleep(5000);
        // select barge
        new Select(driver.findElement(By.id("ctl00_ctl15_g_ce17bd4b_3803_47f6_822a_2b8dd10fc67d_ctl00_dlModality"))).selectByVisibleText("Barge");
        // click button
        Thread.sleep(3000);
        driver.findElement(By.className("button80")).click();
        Thread.sleep(5000);

        //get only table text
        WebElement findElement = driver.findElement(By.className("grid-view"));
        String htmlTableText = findElement.getText();
        // do whatever you want now, These are raw table values.
        System.out.println(htmlTableText);

        driver.close();
        driver.quit();    
    }
}

内容总结

以上是互联网集市为您收集整理的java – 使用JSoup进行屏幕刮擦全部内容，希望文章能够帮你解决java – 使用JSoup进行屏幕刮擦所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/723251.html

来源：【匿名】

【上一篇】java – 通过套接字发送图像【下一篇】JAVA/JSP学习系列之五

更多 ►

【java – 使用JSoup进行屏幕刮擦】教程文章相关的互联网学习教程文章

Jsoup简介——使用Java抓取网页数据

概述 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；jsoup是基于MIT协议发布的，可放心使用于商业项目。关于Jsoul的更多介绍，请访问Jsoul的官网：http://jsoup.org/关...

Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据【代码】【图】

在涉及地址服务时，经常需要用到地址信息的获取，而行政区划可能不定期的发生变化，所以我们需要获取最新的行政区划信息。因行政区划数据量较大，Java中可以使用Jsoup进行数据的获取、处理。大家经常用到的行政区划数据，可从中华人民共和国民政部网站上获取，响应请求链接如下所示：http://www.mca.gov.cn/article/sj/xzqh/2019/界面如下图所示：截至当前对应的行政区划数据请求链接为：http://www.mca.gov.cn/article/sj/xzqh/20...

java – 使用jsoup检索html内联样式属性值【代码】

有人帮助我使用jsoup检索此示例中text-align样式的值吗？<th style="text-align:right">4389</th>在这里,我希望得到正确的价值谢谢！解决方法:您可以检索元素的style属性,然后通过以下方式将其拆分：. 例：final String html = "<th style=\"text-align:right\">4389</th>";Document doc = Jsoup.parse(html, "", Parser.xmlParser()); // Using the default html parser may remove the style attribute Element th = doc.select...

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。回复内容：RT~ 不要simple_html_dom这个库，这个库的执行效率貌似不高哦。phpquery

Atitit.html解析器的选型?jsoup?nsoup?，java?c#?.net?版本_html/css_WEB-ITnose

Atitit.html解析器的选型 jsoup nsoup ，java c# .net 版本 1. 框架选型的要求1 1.1. 文档多1 1.2. 跨平台1 2. html解析器特性：1 2.1. jQuery 风格的 CSS 选择器1 2.2. 操作 HTML 文档.1 3. 浏览器解析html的原理以及防止乱码2 4. 把meta标签放在head区域的最前面4 5. HTML解析器4 6. 参考8 6.1.1. atitit. java?jsoup?html table的读取解析总结 -?attilax的专栏 ...8 1. 框架选型的要求 ...

jsoup1.9.2发布，Java的HTML解析器_html/css_WEB-ITnose

jsoup 1.9.2 发布，改进内容包括：改进： 1. In XML documents, detect the charset from the XML prolog -- Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed...

java爬虫之Jsoup【代码】【图】

maven依赖： <dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.5.3</version> </dependency>关键代码 //爬取网址 String url= "http://www.yuetutu.com/"; Document document = Jsoup.connect(url).get(); //compile()中为Xpath语法，可在f12中校验 Elements elements = Xsoup.compile("//div[@class='item']").evaluate(document).getElements(); for(Element element : elements){...

Java 之jsoup 三种解析【代码】

Java 之jsoup 三种解析 1.操作xml文档 1. 解析(读取)：将文档中的数据读取到内存中 2. 写入：将内存中的数据保存到xml文档中。持久化的存储 2..解析xml的方式： 1. DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树 1.优点：操作方便，可以对文档进行CRUD的所有操 2 .缺点：占内存 2. SAX：逐行读取，基于事件驱动的。 1. 优点：不占内...

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决【图】

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决凯哥Java 凯哥java 问题描述：在使用jsoup爬取其他网站数据的时候，发现class是带空格的多选择，如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。爬取网站页面结构如下：其中文章列表的div为：<div class="am-cf inner_li inner_li_abtest"></div> 我们可以看到其class的值为：am-cf inner_li inner_li_abtest。带空格的。...

SpringBoot Jsoup爬取小红书文章内容利用JavaCV自动生成视频并发布到抖音【代码】

一、引入相关maven 二、根据小红书文章链接爬取文章内容和图片三、根据图片、文字、音频等生成视频文件 1、生成视频工具类 2、上传视频到抖音一、引入相关maven<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.4</version></depe...

Java学习-063-Jsoup 请求页面 Content-Type 解析失败：org.jsoup.UnsupportedMimeTypeException: Unhandled content ty【代码】

使用 Jsoup 获取网站查询数据时，一直提示 Content-Type 失败，详细错误信息如下所示： 1 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml2 . Mimetype=application/javascript; charset=utf-8, URL=url 3 at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:770)4 at org.jsoup.helper.HttpConnection$Response.exe...

Java爬虫（Jsoup与WebDriver）【代码】【图】

一、Jsoup爬虫 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。以博客园首页为例 1、idea新建maven工程 pom.xml导入jsoup依赖<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version> </dependency>jsoup代码package com.blb;import org.jsoup.Jsoup; import org.jsoup...

Java爬虫Jsoup【代码】【图】

本文主要讲述自己采用Java语言爬取网络信息的过程主要是用的组件是Jsoup Demo1 使用Java获取a标签内容： import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;import javax.swing.event.DocumentEvent; import java.io.IOException;public class lianjia{public static void main(String[] args){try{Document doc = Jsoup.connect("http://jsoup.org")...

jsoup：Java HTML解析器【图】

解析和遍历一个HTML文档如何解析一个HTML文档： String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); (更详细内容可查看解析一个HTML字符串.) 其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：没有关闭的标签 (比如： <p>Lorem <p>Ipsum parses to <p>Lore...

Java爬虫技术之Jsoup【代码】【图】

Java的应用领域一直给人的印象就是企业级系统开发语言，其实Java在爬虫方面也是很强的，也有很成熟的生态体系，而且强大的语言基础不论是爬取处理，数据处理都可以有足够的支撑。很早读书的时候，有看过一本爬虫的书，当时并没有坚持读完，如今工作时间不是很充足，对相关框架、技术做一些关键记录。一、Jsoup简介 1.官网 https://jsoup.org 2.功能说明在爬虫程序中，Jsoup作为HTML解析器，爬取可以使用HttpClient等框架，Jsoup本...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / java – 使用JSoup进行屏幕刮擦

java – 使用JSoup进行屏幕刮擦

内容导读

内容图文

内容总结

内容备注

内容手机端

【java – 使用JSoup进行屏幕刮擦】教程文章相关的互联网学习教程文章

Jsoup简介——使用Java抓取网页数据

Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据【代码】【图】

java – 使用jsoup检索html内联样式属性值【代码】

jquery插件-PHP或者jquery有没有类似JAVA的jsoup或者htmlparser之类的高性能类库？

Atitit.html解析器的选型?jsoup?nsoup?，java?c#?.net?版本_html/css_WEB-ITnose

jsoup1.9.2发布，Java的HTML解析器_html/css_WEB-ITnose

java爬虫之Jsoup【代码】【图】

Java 之jsoup 三种解析【代码】

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决【图】

SpringBoot Jsoup爬取小红书文章内容利用JavaCV自动生成视频并发布到抖音【代码】

Java学习-063-Jsoup 请求页面 Content-Type 解析失败：org.jsoup.UnsupportedMimeTypeException: Unhandled content ty【代码】

Java爬虫（Jsoup与WebDriver）【代码】【图】

Java爬虫Jsoup【代码】【图】

jsoup：Java HTML解析器【图】

Java爬虫技术之Jsoup【代码】【图】

JAVA - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程