【java – JSoup-按标签获取标签之间的文本】教程文章相关的互联网学习教程文章

Java爬虫Jsoup【代码】【图】

本文主要讲述自己采用Java语言爬取网络信息的过程 主要是用的组件是Jsoup Demo1 使用Java获取a标签内容: import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;import javax.swing.event.DocumentEvent; import java.io.IOException;public class lianjia{public static void main(String[] args){try{Document doc = Jsoup.connect("http://jsoup.org")...

jsoup:Java HTML解析器【图】

解析和遍历一个HTML文档 如何解析一个HTML文档: String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); (更详细内容可查看 解析一个HTML字符串.) 其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:没有关闭的标签 (比如: <p>Lorem <p>Ipsum parses to <p>Lore...

Java爬虫技术之Jsoup【代码】【图】

Java的应用领域一直给人的印象就是企业级系统开发语言,其实Java在爬虫方面也是很强的,也有很成熟的生态体系,而且强大的语言基础不论是爬取处理,数据处理都可以有足够的支撑。很早读书的时候,有看过一本爬虫的书,当时并没有坚持读完,如今工作时间不是很充足,对相关框架、技术做一些关键记录。一、Jsoup简介 1.官网 https://jsoup.org 2.功能说明 在爬虫程序中,Jsoup作为HTML解析器,爬取可以使用HttpClient等框架,Jsoup本...

java-在使用JSoup保留换行符的同时删除HTML实体【代码】

我一直在用JSoup解析歌词,到目前为止它一直很棒,但是遇到了问题. 我可以使用Node.html()返回所需节点的完整HTML,这样保留换行符:Gl&oacute;andi augu, silfurn&aacute;tt <br />Bl&oacute;&eth; alv&ouml;ru, starir &aacute; <br />&Oacute;&eth;ur hundur er &iacute; v&iacute;gam&oacute;&eth;, &iacute; maga... m&eacute;r <br /> <br />Kolni&eth;ur gref, kvik sem dreg h&eacute;r <br />Kolni&eth;ur svart, hvergi bja...

java-在Jsoup中,是否可以从元素列表中获取元素而不进行遍历?【代码】

我是Jsoup的新手,但这似乎是一个很棒的工具.我正在尝试提取机器人元标记. 我有以下代码:Document doc = Jsoup.parse(htmlContent); Elements metatags = doc.select("meta"); Element robots = metatags.attr("name", "robots"); // is getting the first element of the list最后一行是错误的. 我想知道是否有必要运行元素列表以查找与属性匹配的元素,或者有一种方法可以从元素列表中提取与属性匹配的元素. 编辑1:我解决了对doc...

java-Jsoup解析和嵌套标签【代码】

我正在学习Jsoup,并具有以下HTML:[...]<p style="..."> <!-- div 1 -->Content</p><p style="..."> <!-- div 2 -->Content</p><p style="..."> <!-- div 3 -->Content</p>[...]我使用Jsoup.parse()和文档select(“ p”)捕获“内容”(效果很好).但…[...]<p style="..."> <!-- div 1 -->Content</p><p style="..."> <!-- div 2 -->Content</p><p style="..."> <!-- div 3 -->Content<p style="..."></p><p style="..."></p></p>[.....

java爬虫中jsoup的使用

java爬虫中jsoup的使用 jsoup可以用来解析HTML的内容,其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息 例如1: 从html字符串中解析数据 //直接从字符串中获取 public static void getParByString() { String html = "<html><head><title> 这里是字符串内容</title></head"+ ">"+"<body><p class=p1> 这里是 jsoup 作用的相关演示</p></body></html>"; Document doc = Jsoup.parse(html...

java-使用从HTTPClient检索到的数据到JSoup【代码】

我正在使用HTTPClient连接到网站.以下代码段用于此目的:byte[] responseBody = method.getResponseBody();System.out.println(new String(responseBody));上面的代码显示网站的html代码.此外,我只想访问我可以使用JSoup使用以下代码段访问的代码中的一些数据:Document doc = Jsoup.connect(url).get();在上面的代码中,我直接使用“ url”指定了网站的url.这意味着如果我使用JSoup,则不需要HTTPClient.有没有一种方法可以使用通过...

使用Java 6和Jsoup 1.7.3,如何在同级文本不在元素内的情况下解析此HTML?【代码】

主要是我的问题是如何解析…<p>some text<br /> <br /> <strong>categorized: </strong>like this<br /> <br /></p>…我最终对使用Java和Jsoup获得“分类”,“像这样”这样的键值对感兴趣吗?我正在查看< strong>标签是一种我可以用来指示键的定界符,然后它后面的文本(不方便地不包含在标签中)需要我抓取作为值. 我认为对我来说挑战是“像这样”的部分不在一个元素中.它是一个同级节点,但是无法通过CSS选择,因此我无法通过Jsoup找到...

如何在JSoup Java中仅显示html标记?【代码】

我正在做一个学校项目,并且试图解析一个html网页以仅显示标签,就像下面没有关闭标签的输出一样. (我手工编码)<html><head> <title><basefont> <body> <h1><h2>到目前为止,这只是我的主要方法中的代码.public class ReadWithScanner { public static void main(String[] args) throws IOException {String URL ="http://csb.stanford.edu/class/public/pages/sykes_webdesign/05_simple.html";Document doc = Jsoup.connect(URL).g...

java-JSoup:如何访问不带类的单元格【代码】

我正在尝试将HTML文件中的数据提取到我的Java代码中.当我的单元格有一个类名时,一切都很好.是否有可能获得“下一个单元格”之类的东西?这是HTML和我的代码的一部分.<table border="1"> <tr> <th>Termin</th> <th>Dzień, godzina</th> <th>Przedmiot</th> <th>Typ</th> <th>Nauczyciel</th> <th>Sala</th> </tr> <tr class=""> <td rowspan="2" class="termin">2015-09-30</td> <td rowspan="2" class="dzien">?r 07:50 - 09:30</...

java-如何使用JSOUP或Coldfusion从URL中删除查询字符串和哈希值?【代码】

这是示例: 当我解析HTML页面时.我收到重复的网址值,例如 > https://stackoverflow.com/questions/tagged/java?sort=featured&pageSize=50> https://stackoverflow.com/questions/tagged/java#comments> https://stackoverflow.com/questions/tagged/java#comment212 如何避免出现上述重复值? 我只需要这个URL https://stackoverflow.com/questions/tagged/java解决方法:我创建了一个辅助方法processURL(),它接受一个URL并返回一个...

java-Jsoup网站登录抛出未知异常【代码】

I attempt to login to my school’s grade book website to display the HTML with the following code:public class Connect {public static void main(String[] args) {String pageURL = "https://parents.mtsd.k12.nj.us/genesis/parents?tab1=studentdata&action=form";String param1 = "&tab2=gradebook";String param2 = "&tab3=weeklysummary";String param3 = "&studentid=";Scanner input = new Scanner (System.in);Str...

java-如何在Android BroadcastReceiver中使用Jsoup时解决“ UnsatisfiedLinkError”问题?【代码】

我在做什么: 在我的应用程序(具有minSdkVersion 15的Android)中,我有一个BroadcastReceiver,它可以监听Intent.ACTION_PACKAGE_ADDED(设备上已安装了新的应用程序包).每当发生这种情况时,接收器都会尝试使用Jsoup从Internet上获取一些数据. 问题: 只要我在安装其他应用程序时(例如从Play商店中)运行我的应用程序,以下代码就可以正常运行.但是,如果我杀死我的应用程序,然后安装另一个应用程序,则我的应用程序将崩溃,并显示“我的应...

java-Jsoup仅选择最里面的div【代码】

有没有办法在Jsoup中仅选择最里面的div(即不包含其他div的div)? 澄清一下:我仅指div.也就是说,如果div包含不是div的元素,但不包含任何div,则就我而言,它被视为“最里面的div”.解决方法:Jsoup与CSS选择器一起使用.但是,使用CSS选择器无法实现所需的功能.因此,这毫无疑问.您需要循环检查每个div.Elements divs = document.select("div"); Elements innerMostDivs = new Elements();for (Element div : divs) {if (div.select(">di...