【java – JSoup-按标签获取标签之间的文本】教程文章相关的互联网学习教程文章

java-Jsoup:“仅选择text()等于的链接”【代码】

cul与等于某些预定义字符串的text()链接的一种方法很简单:Elements links = document.getElementsByTag("a"); for (Element link : links) {if (link.text().equals("So & so") || link.text().equals("such & such") {// add link.attr("href") to our container;} } 但是随着text()条件数量的增加,这种方法的效率越来越低. 在Jsoup中是否有更好的方法来实现这一目标?解决方法:这与Jsoup无关,...

java-与Firefox和其他浏览器相比,Jsoup获得的HTML不同【代码】

我在一家名为Kabum的网上商店的某些网址上遇到了麻烦. 网址是http://www.kabum.com.br/cgi-local/kabum3/produtos/descricao.cgi?id=01:02:23:55:159 如果我在地址栏中输入该站点,或单击链接,则会看到该产品的页面,但是如果我使用Jsoup,则只会得到一个刷新到同一地址的页面. 尝试设置用户代理,引荐来源网址,并按照meta中的链接进行操作,但是我得到了相同的页面. 我的代码在这里:Document doc; String url = "http://www.kabum.com...

java-Jsoup仅选择div中具有其他元素的文本【代码】

我的div带有很多这样的内部超大型庞然大物:<div>sometext<p></p>sometext<div></div>sometext</div>我需要选择父div中的文本,而子元素中不包含所有文本.我不能使用.not()摆脱里面的divs.我也无法获得children元素,因为它消除了内部的文本并仅返回内部的元素.所以基本上我只需要没有任何子元素的文本. 我怎么做?解决方法:实际上,您需要使用yourElement.ownText();. 正如Jsoup的文档所述: String ownText():仅获取此元素拥有的文...

java-Jsoup-如何检查Element是否属于特定类?【代码】

这是我的元素代码:<tr class="footer">...</tr>在表中,还有其他行和其他类,我分别处理它们.我怎么知道这个处理过的tr元素是否具有“页脚”类?解决方法:您正在寻找Element#hasClass方法.if (element.hasClass("footer")) {// do something }

Java jsoup-清除链接以外的所有标签【代码】

输入字符串: < b>测试链接< / b> < a href =“ https://www.w3schools.com”>访问W3Schools< / a> 预期结果: 测试链接< a href =“ https://www.w3schools.com”>访问W3Schools< / a> 我对jsoup的尝试:public String cleanHtml(String html){Whitelist whitelist = Whitelist.none();whitelist.addTags("a");return Jsoup.clean(html, whitelist);}结果是: 测试链接< a>访问W3Schools< / a> 如何删除所有标签,但保留整个href?...

java-如何防止jsoup转换特殊字符?【代码】

这个问题已经在这里有了答案: > Jsoup is escaping content of iframe 1个请看下面的简化示例:public static void main(String[] args) {String html = "<html>\n" +" <head></head>\n" +" <body>\n" +" <div> \n" +" <p> 2 <= X </p> \n" +" </div>\n" +" </body>\n" +"</html>";Document doc = Jsoup.parse(html); System.out.println(doc.s...

java-如何创建具有重复数据的Jsoup.select.Elements?【代码】

我有一个网页:<table id="timetable" class="table gradient-table"> <tbody><tr><td class="time"><div>10:30 12:05</div></td><td class="time"><div>12:30 14:05</div></td><td class="time"><div>12:30 14:05</div></td><td class="time"><div>14:30 16:05</div></td><td class="time"><div>16:30 18:05</div></td></tr> </tbody> </table> 我在做:doc.select("table[id=timetable]").select("tbody").select("td[class...

java-使用Jsoup提取字符串【代码】

我正在尝试使用Jsoup库在网站html页面中获取一些名称表单类属性,问题是我正在使用getElementsByClass(“ name”)通过类获取元素并将其存储到字符串变量中,结果像这样“迈克安德罗罗伯班克斯玛丽亚杰拉多路易斯但我想要的是将各个名称分开并将它们存储到数组中.以下是代码段:public String processText(String htmlPage) {Document html = Jsoup.parse(htmlPage);String names = html.body().getElementsByClass("name").text();re...

java – 使用JSoup从Google搜索结果的所有页面检索所有链接【代码】

我有以下代码用于使用JSoup在java中解析HTML.Document linksDoc = null; linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get(); Elements titles = linksDoc.select("h3.r > a");for(Element e: titles){System.out.println("text"+cnt+": " +e.attr("href"));} 问题是我只能检索第一页搜索结果链接.我该怎么做才能从谷歌搜索结果的其他页面获取链接.解决方法:如果您想从第二页获取结...

java – 使用JSoup进行Html解析【代码】

我试图解析以下URL的html: http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/ 获得“< p>”的文本包含教师姓名的标签.所需信息位于“< p>”内标签,但我无法使用JSoup检索标签.我不知道我做错了什么,因为当我将标签保存在Element对象中时,我们将其称为’b’,并且我调用b.getAllElements()它不会显示为其中一个元素.这不是Jsoup的getAllElements()方法吗?如果没有,有人可以向我解释我显然...

java – Jsoup没有解析Particluar DIv【代码】

我无法使用Jsoup Library从here获得div’live ticker’. 这是我的代码:Document doc = Jsoup.connect(Link).get();Element link = doc.select("div.data-of-match-live-experience").first(); Elements squad = doc.select("div.data-of-match-live-experience"); Elements li = squad.select("li"); // select all li from ulLog.d("jsoup", "size: " + li.size());解决方法:此标记中的文本不是初始html的一部分,而是在加载页面后...

java – Jsoup从表中获取表中的数据【代码】

这并不简单.我正在解析一个页面(http://www.catedralaltapatagonia.com/invierno/partediario.php?default_tab=0)我需要在其他表中的表中满足的数据,但我无法访问因为我收到关于无效索引索引的所有错误 我需要这个价值观 这个单元格位于tr内部的td内,在表格内部,此表格位于另一个表格内. 每列单元格都在div id“meteo_info”中,并且在每个td内部都有相同的名称div id. 我试过这种方式没有成功Elements base1=document.select("div#...

使用Jsoup Java登录【代码】

如何通过jsoup登录?<table border="0" cellpadding="8px"> <tbody><tr> <td align="left"> <span id="ctl00_bodyContent_LabelTurni1" style="font-size: 13pt;">Nome utente</span> </td> <td align="left"> <input name="ctl00$bodyContent$txtUser" type="text" size="30" id="ctl00_bodyContent_txtUser"> </td> </tr> <tr> <td align="left"> <span id="ctl00_bodyContent_LabelTurni2" style="font-size: 13pt;">Password</...

java – Jsoup:从锚标记中提取innertext【代码】

这是我的问题.我有一个HTML内容: 的innerText 我需要提取“innerText”.在Jsoup中尝试这个时,我发现当由Jsoup解析时,innertext会在anchor标记之外. 这是我的代码Document doc=Jsoup.parse("<div> <a href="#"> innerText </a> </div>"); System.out.println(doc.html());输出:<html><head></head><body><div ><a href="#"></a>innerText</div></body> </html>为什么“innerText”移动到锚标记之...

java – Jsoup获取重定向的URL【代码】

我正在尝试从url shortener提供的url中获取实际(重定向)url. 我们以twitter url shortener为例.我能够得到响应对象也解析它以获取文档.Response response = Jsoup.connect("http://t.co/i5dE1K4vSs").followRedirects(true) //to follow redirects.execute();现在,考虑单个重定向,从哪里获取最终的URL?实现这一目标的任何方法或策略?解决方法:Response对象有一个url()方法,它应该为您提供最终的url.所以你可以这样做String url =...