【java通过Jsoup爬取网页(入门教程)】教程文章相关的互联网学习教程文章

java – 用jsoup解析表【代码】

我正在尝试使用jsoup从linkedin配置文件中提取电子邮件地址和电话号码,每个信息都在一个表中.我编写了一个代码来提取它们但它不起作用,代码应该适用于任何linkedin配置文件.任何帮助或指导将不胜感激.public static void main(String[] args) {try {String url = "https://fr.linkedin.com/";// fetch the document over HTTPDocument doc = Jsoup.connect(url).get();// get the page titleString title = doc.title();System.out...

java – 用Jsoup解析网页.为什么Android上的行为有所不同?【代码】

Document doc = Jsoup.connect(url).get();如果我在Android中运行此代码,我会得到一个包含535行(长度:42599)的HTML代码. 如果我在一个示例桌面应用程序中运行此代码,请获取一个包含2050行的html代码(长度:292782,即CORRECT.当然,相同的JSoup库. 谁能解释我为什么?解决方法:设置桌面用户代理Document doc = Jsoup.connect(URL).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0").timeout(TI...

java – Jsoup,在执行表单POST之前获取值【代码】

这是我用来提交表单的代码:Connection.Response res = Jsoup.connect("http://example.com").data("id", "myID").data("username", "myUsername").data("code", "MyAuthcode") // get the value of Auth code from page element.method(Method.POST).execute();要成功提交给定表单,[name =“code”]字段需要设置值. 该值可以在另一个元素的页面上找到.在如上所示实际提交表单之前,如何使用相同的连接获取元素的值? 我需要使用元素...

java – 使用jsoup从带有可变页面数据的“form”类中提取文本【代码】

首先发布在这里,所以我会尽力保持这一点.我一直在使用Jsoup从一系列网页中提取数据以引入一个优秀的应用程序.我遇到了一个页面,它根据下拉框中的用户选择动态更新数据.当我在Chrome中检查html时,我可以看到数据,但我似乎无法提取它.我可以提取它周围的所有文本元素,但动态生成的任何内容都不会出来. 我正在看的页面有下面的表格类,为包装道歉,我无法摆脱它.<form class="variations_form cart" method="post" enctype="multipart/f...

autojs脚本引擎调用java的jsoup爬取科学网博客的指定id的好友名字【代码】

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 说明 本文提供的代码仅供参考。 可能有些地方在最新版本的Auto.js上面需要做修改,才能运行。 Auto.js简介 Auto.js是利用安卓系统的“辅助功能”实现类似于按键精灵一样,可以通过代码模拟一系列界面动作的辅助工作。 与“按键精灵”不同的是,它的模拟动作并不是简...

java – 解析jsoup中元素内的元素?【代码】

最近开始编程Android Java(Eclipse),我试图用jsoup制作一个简单的阅读器应用程序. 我有像这样的HTML;<article id="id" class="artikel"> <h1>Title</h1> <p>paragraph 1</p> <p>paragraph 2</p> <p>paragraph 3</p> </article><article id="id"> <p>comment1</p> </article><article id="id"> <p>comment2</p> </article>段落数量是可变的.评论的数量也是如此.我想得到文章中的所有段落,没有评论.真正的文章总是第一篇文章标签,所以...

java – 通过JSOUP从div类中获取数据【代码】

我需要从“rnicper”获得值“8.32”,从“rnstr”获得“36 mg”,从“nirat”获得“20/80 PG / VG”.<div class="recline highlight" id="rnic"><div class="rlab"><span class="nopr indic indic-danger"></span>Nicotine juice <span id="rnstr">36 mg</span> (<span id="nirat">20/80 PG/VG</span>)</div><div class="runit" id="rnicml">2.08</div><div class="rdrops" id="rnicdr">73</div><div class="rgrams" id="rnicg" styl...

java – 使用Jsoup发布登录数据【代码】

我正在尝试登录这个网站:http://deeproute.com 这是我的代码.Connection.Response res = null;Connection homeConnection = null;Document homePage = null;Map<String, String> loginCookies = null;try {res = Jsoup.connect("http://www.deeproute.com/").data("cookieexists", "false").data("name", user).data("password", pswd).method(Method.POST).execute();} catch (IOException e) {e.printStackTrace();}if (res != ...

java – 添加jsoup作为提供的依赖项后,Storm命令因NoClassDefFoundError而失败【代码】

我在我的项目中使用JSoup,并且已经在我的POM文件中声明了依赖项.它编译得很好并且运行也很好,但只有当我使用带有所有依赖项的jar并且更改具有编译的依赖项的范围时. 如果我将此范围更改为提供,那么我仍然可以正常编译,但不能运行它.它给了我ClassNotFoundException.我已经在类路径中包含了必要的JAR文件以及路径变量,但我仍然面临着这个问题. 我可以使用编译选项,但它真的让我心烦意乱,因为我无法使用提供的选项运行它,如果有人可以...

java – 如何生成匹配Jsoup中特定元素的XPath查询?【代码】

_嗨,这是我的网页:<html><head></head><body><div> text div 1</div><div><span>text of first span </span><span>text of second span </span></div><div> text div 3 </div></body> </html>我正在使用jsoup来解析它,然后浏览页面内的所有元素并获取它们的路径:Document doc = Jsoup.parse(new File("C:\\Users\\HC\\Desktop\\dataset\\index.html"), "UTF-8");Elements elements = doc.body().select("*"); ArrayList all = ne...

java – Jsoup getElementsByAttributeValueMatching【代码】

[JSoup讨论页面建议我在这里问我的问题.] 所以,我不是正则表达式专家,但我想知道我从jsoup得到的结果getElementsByAttributeValueMatching()方法. 如果我有一个html页面,其中包含(以及其他)以下链接:<a href="/tweb/tiles/twr/EIDS_AT_20130108T134335/01/">Parent Directory</a> <a href="1357681618315/">1357681618315/</a> <a href="1357681649996/">1357681649996/</a>我查询:Elements dirs = baseDir.getElementsByAttribu...

java – 如何使用JSoup解析HTML文档以获取链接列表?【代码】

我试图解析http://www.craigslist.org/about/sites以构建一组文本/链接,以使用此信息动态加载程序.到目前为止,我已经这样做了:Document doc = Jsoup.connect("http://www.craigslist.org/about/sites").get(); Elements elms = doc.select("div.colmask"); // gets 7 countries在这个标签下面有我想要的doc.select(“div.state_delimiter,ul”)标签.我设置了我的迭代器并进行了一段时间的查看并调用了iterator.next().outerHtml()...

java – 使用JSoup设置HTML标签的属性【代码】

如何使用JSoup设置HTML标签的属性? 我想使用Jsoup Library在Java中设置tag->“img”的attribute->“src”.Elements img_attributes = doc.select("img[src^=/im]"); for(Element img_attribute: img_attributes) {String s = img_attribute.attr("src"); System.out.println(s); }此代码打印src值.我想更改src值.解决方法:您可以通过两种方式使用attr()方法执行此操作:循环或直接在Elements对象上:// In a loop for( Element im...

java – Jsoup检查字符串是否有效HTML【代码】

我在使用Jsoup解析器时遇到了困难.如何判断给定的字符串是否是有效的HTML代码?String input = "Your vote was successfully added." boolean isValid = Jsoup.isValid(input); // isValid = trueisValid标志是真的,因为Jsoup首先使用HtmlTreeBuilder:如果没有html,head或body标签丢失,它会自己添加它们.然后它使用Cleaner类并根据给定的白名单进行检查. 有没有简单的方法来检查字符串是否是有效的HTML而没有Jsoup尝试使其成为HTM...

java – 如何使用jsoup获取所有div元素?【代码】

我正在学习如何使用jsoup.我首先认为jsoup就像jquery,但事实并非如此. 我想将这个html主体提取为div的元素.<html> <head></head><body><div><h1>Title</h1></div><div><img src="/xx.jpg" /></div><div><p>Paragraph 1</p><p>Paragraph 2</p></div><div><h2><b>End</b></h2></div></body> </html>我正在使用此代码:Document doc = Jsoup.parse(htmlString); Elements divs = doc.select("div");但它返回所有的div.我希望元素像这样...