【java – JSoup-按标签获取标签之间的文本】教程文章相关的互联网学习教程文章

java通过Jsoup爬取网页(入门教程)【代码】

一,导入依赖 <!--java爬虫--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.3</version></dependency><!--httpclient依赖--><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId></dependency>二,编写demo类 注意不要导错包了,是org.jsoup.nodes下面的package com.taotao.entity;import org.apache.http.HttpEntity; import org.apache.h...

java – 使用Jsoup提交登录表单时出现问题【代码】

出于某种原因,当我使用正确的登录信息时,此代码不会让我进入网站. System.out.println发布登录页面的代码,表明我的代码不起作用.有人能告诉我我忘记了什么或者它有什么问题吗?public void connect() {try {Connection.Response loginForm = Jsoup.connect("https://www.capitaliq.com/CIQDotNet/Login.aspx/login.php").method(Connection.Method.GET).execute();org.jsoup.nodes.Document document = Jsoup.connect("https://www...

java – jsoup for facebook登录【代码】

我之前看过这个问题并且看过很多回答“有一个facebook api”是的我完全清楚有一个facebook api但是我不想用它.我正在制作一个可以登录网站并发布的Android应用程序,我只是用一个facebook示例来说明我的问题 我在java中有这个代码import java.io.IOException;import org.jsoup.Jsoup; import org.jsoup.nodes.Document;public class testingjsoup {public static void main(String[] args ){try {Connection.Response res = Jsoup.c...

java – 使用JSoup进行屏幕刮擦【代码】

我想通过网络抓取从这个网站获取数据. http://myservices.ect.nl/tracing/objectstatus/Pages/Overview.aspx: 我以前使用JSoup来获取更多静态HTML网站,但是这个更难以实现,因为在我获得网站上的HTML表之前必须单击一个按钮,我不知道是否可以使用JSoup来操作按钮. 单击此按钮后,我得到一个HTML表,我想只获取数据是Barge的数据. 感谢您提示使用Firefox,现在我有了一些其他页面信息的表格.你能告诉我怎样才能获得表格信息?我得到的输...

java – JSoup-按标签获取标签之间的文本【代码】

场景:我使用Apache Tika从DOCX文件中获取XHTML.我需要解析此XHTML以获取特定标记之间的文本(例如div或p标记).为此,我使用Jsoup在标签之间获取文本. 问题:最初XHTML有这样的文字:some text [tab-space][tab-space] other text.但是对于Jsoup,我得到了这个:some text other text.所以标签空间丢失但我需要得到文本,即包括标签空间.是否可以使用Jsoup执行此操作,还是有任何其他Java库可以执行此操作?解决方法:对TextNodes使用get...

java – JSoup – 格式化元素【代码】

假设我有这个HTML:<html><head></head><body><form method="post"><select name="books"> <option value="111">111</option><option value="222">222</option></select></form></body> </html>我在Jsoup中加载它并获得结果:Document doc = Jsoup.parse(html); doc.outputSettings().indentAmount(4); doc.outputSettings().charset("UTF-8"); doc.outputSettings().prettyPrint(true); String result = doc.outerHtml();结果是:...

java – 如何使用Jsoup登录页面【代码】

经过几个小时的搜索后,我仍然有点难过在登录后如何访问html页面.看看这里的各种其他帖子以及Jsoup API,我理解访问后的页面登录页面将需要一些这样的代码:Connection.Response loginForm = Jsoup.connect("https://parentviewer.pisd.edu/").method(Connection.Method.GET).execute();Document document = Jsoup.connect("https://parentviewer.pisd.edu/").data("username", "testUser").data("password", "testPass").data("Logi...

java – JSOUP检查元素是否为img【代码】

我有一个对象元素xxx.现在我想迭代它,我想检查是否有任何元素是img标记.我怎样才能做到这一点 ?解决方法:您可以使用tagName:Elements yourElements = ...for( Element element : yourElements ) {if( element.tagName().equals("img") == true){// It's an 'img'}else{// It's not an 'img'} }

java – 使用Jsoup登录网站并留在网站上【代码】

我尝试登录:http://www.gszi.sulinet.hu/dinaweb/diakok/belepes.jsp有了这个:Connection.Response loginForm = Jsoup.connect("http://www.gszi.sulinet.hu/dinaweb/diakok/belepes.jsp").method(Connection.Method.GET).execute();Document doc = Jsoup.connect("http://www.gszi.sulinet.hu/dinaweb/diakok/belepes.jsp").data("name","myid").data("name","mycode").cookies(loginForm.cookies()).post();之后,获取我必须登录...

java – Jsoup在Google Maps API上返回错误400【代码】

我正在开展一个项目,要求我在谷歌地图上找到一些商店的坐标.我已经有了每个商店的地址. 我在Google Geocoding APIs上玩了一点,我认为它们是我需要的:我所需要做的就是连接到DBMS,检索item_id和地址,生成地理编码API的有效URL并处理它将获得的JSON数据. 我不明白为什么,但我生成的URL在我的浏览器中运行(Chrome 23和最新的Safari,OS X),但在Jsoup中不起作用.我查看了Chrome中页面的来源,看起来它是完全有效的HTML.那么什么是Jsoup做...

java – 防止Jsoup.parse删除结束标记【代码】

我正在使用Jsoup.parse解析一段html. 其他一切都很棒,但我应该稍后在pdf转换器中解析这个HTML. 由于某种原因,Jsoup.parse删除了结束标记,而pdf-parser抛出了关于缺少关闭img标记的异常.Can't load the XML resource (using TRaX transformer). org.xml.sax.SAXParseException; lineNumber: 115; columnNumber: 4; The element type "img" must be terminated by the matching end-tag "</img>"如何防止Jsoup.parse删除关闭的img标...

java – 在jsoup中的td标记内提取href值【代码】

我有<table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr><tr><td><a href="url2">text</a></td> <td>text</td> </tr>我想提取所有行的网址和文本我用Document doc = Jsoup.connect(url).get(); for (Element table : doc.select("table.table")) {for (Element row : table.select("tr")) {Elements tds = row.select("td");String text1=tds.get(0).text();String url= row.attr("href");S...

java – 使用jsoup编码Html字符【代码】

我必须将字符编码为Html:< to < > to > ' to " to &quot; & to &amp;我在PHP中寻找像htmlspecialchars这样的实用函数:String htmlspecialchars(String inputText)是否可以使用JSoup对这些字符进行编码? (我在Spring框架中找到了htmlEscape,但我不想仅仅为这个简单的函数使用Spring框架.)解决方法:JSoup是一个解析HTML的库. 我不认为你可以用它来将特殊字符编码成HTML. 最好的方法是编写自己的方法.只需从Spring中获取此方法,您...

java – 用于检查span类是否存在的jSoup【代码】

我有一个HTML格式如下<article class="cik" id="100"> <a class="ci" href="/abc/1001/STUFF"><img alt="Micky Mouse" src="/images/1001.jpg" /><span class="mick vtEnabled"></span></a><div><a href="/abc/1001/STUFF">Micky Mouse</a><span class="FP">$88.00</span> <span class="SP">$49.90</span></div> </article>在上面的代码中,文章中的标签有一个span class =“mick vtEnabled”,没有标签.我想检查带有指定类名的span...

java – 如何使用JSoup获取隐藏的输入值?【代码】

我有数据<input name="authenticity_token" type="hidden" value="aiUlw1Yh4W47lPQearSEdTkU0rhKpziZOweq5PMTV0Q=" />我试图用Jsoup选择它.Element input = doc.select("input[name=authenticity_token]").first();String auth_token = input.attr("value");但这不起作用. 我收到String auth_token =的空指针异常.java.lang.NullPointerException at crime.ic.Main.main(Main.java:2)我究竟做错了什么?解决方法:如果你检查这个dem...