首页 / HTML / Jsoup解析和遍历一个HTML文档(二)

Jsoup解析和遍历一个HTML文档(二)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Jsoup解析和遍历一个HTML文档(二)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2254字，纯文字阅读大概需要4分钟。

内容图文

关于Eclipse编辑器汇总console中字体调整：

技术分享

1，下载jsoup的jar包：http://jsoup.org/download

2, jsoup英文的开发手册：http://jsoup.org/cookbook/

3，jsoup的jsoup cookbook中文版：http://www.open-open.com/jsoup/

- - - - - - - - - - - - - - -

小实例：

                 1
                package
                 cn.cast.test;

                 2
                 3
                 4
                 5
                import
                 org.jsoup.Jsoup;

                 6
                import
                 org.jsoup.nodes.Document;

                 7
                import
                 org.jsoup.nodes.Element;

                 8
                import
                 org.jsoup.select.Elements;

                 9
                10
                11
                import
                 java.io.IOException;

                12
                13
                import
                 org.jsoup.Jsoup;

                14
                import
                 org.jsoup.Jsoup;

                15
                import
                 org.jsoup.nodes.Document;

                16
                import
                 org.jsoup.nodes.Element;

                17
                import
                 org.jsoup.select.Elements;

                18
                19
                20
                public
                class
                 test_1 {

                21
                22
                public
                static
                void
                 main(String[] args) {

                23
                //
                 TODO Auto-generated method stub
                24
                        getUrlAndTitle();

                25
                        getTextMes();

                26
                    }

                27
                28
                public
                static
                void
                 getUrlAndTitle()

                29
                    {

                30         String url="http://finance.sina.com.cn/";
31try {
32             Document doc=Jsoup.connect(url).timeout(10000).get();//get all infomation from url website
33//System.out.println(doc);  34             Elements ListDiv = doc.getElementsByAttributeValue("class","fin_tabs0_c0");
35//System.out.println(ListDiv);36for (Element div :ListDiv) {
37                  Elements links = div.getElementsByTag("a");
38// System.out.println(links);39for (Element link : links) {
40                      String linkHref = link.attr("href").trim();
41                      String linkText = link.text().trim();
42                      System.out.println(linkHref+"\t"+linkText);
43                 }    
44             }
45         } catch (IOException e) {
46// TODO Auto-generated catch block47            e.printStackTrace();
48        }
49    }
5051publicstaticvoid getTextMes()
52    {
53         String url="http://finance.sina.com.cn/hy/20140823/100220099682.shtml";
54         String textMes="";
55try {
56             Document doc=Jsoup.connect(url).timeout(10000).get();
57             Elements ListDiv = doc.getElementsByAttributeValue("class","blkContainerSblkCon BSHARE_POP");
58//System.out.println(ListDiv);59for(Element div:ListDiv)
60            {
61                 Elements textInfos=div.getElementsByTag("p");
62//System.out.println(textInfos);63for(Element textInfo:textInfos)
64                {
65                     String text=textInfo.text().trim();
66                     textMes=textMes+text+"\n";
67                }
68            }
69            System.out.println(textMes);
70         } catch (IOException e) {
71// TODO Auto-generated catch block72            e.printStackTrace();
73        }
74    }
75 }

test_1

原文：http://www.cnblogs.com/kmingspirit/p/7120304.html

内容总结

以上是互联网集市为您收集整理的Jsoup解析和遍历一个HTML文档(二)全部内容，希望文章能够帮你解决Jsoup解析和遍历一个HTML文档(二)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1230556.html

来源：【匿名】

【上一篇】html5 图片热点area，map的用法【下一篇】PHP 和 HTML

更多 ►

【Jsoup解析和遍历一个HTML文档(二)】教程文章相关的互联网学习教程文章

Jsoup解析和遍历一个HTML文档(二)【代码】【图】

关于Eclipse编辑器汇总console中字体调整： 1，下载jsoup的jar包：http://jsoup.org/download 2, jsoup英文的开发手册：http://jsoup.org/cookbook/ 3，jsoup的jsoup cookbook中文版：http://www.open-open.com/jsoup/ - - - - - - - - - - - - - - - - ...

Apache-Tika解析HTML文档【代码】

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理HTML格式的文章，如下：package com.mengyao.tika.app;import java.io.File; import java.io.FileInputStream;import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.html.HtmlParser; import org.apache.tika.sax.BodyContentHandler;publicclass HtmlApp...

JavaScript简介——添加到(X)HTMl文档及Javascript变量

1、JavaScript是一种专门设计用来给网页增加交互性的编程语言，其代码通常嵌入在网页中。JavaScript是一种解释型语言，不需要预先编译就可以执行JavaScript是一种专门用来对网页进行编程的脚本语言。2、JavaScript的作用：(1)全面控制HTML网页中的所有元素(2)可以在HTMl网页中加入动态文本(3)响应用户在使用网页时产生的事件(4)用于校验用户输入的数据(5)检测访问者的浏览器(6)用于创建cookies3、JavaScript技术体系包含的内容：(1...

使用pyh生成HTML文档【代码】【图】

最近在项目中需要将结果导出到HTML中，在网上搜索的时候发现了这个库，通过官方的一些文档以及网上的博客发现它的使用还是很简单的，因此选择在项目中使用它。在使用的时候发现在Python3中有些问题，网上很多地方都没有提到，因此我在这将它的使用以及我遇到的问题和解决方案整理出来供大家参考本文主要参考pyh中文文档下载的样本也是该文中提到的地址常规使用在使用时一般先导入模块:from phy import*然后可以创建一个PyH对象就...

通过jd2chm工具将html文档生存chm文档方法

1、下载jd2chm.exe工具2、下载后解压缩后先安装htmlhelp.exe3、将jd2chm.exe文件拷贝到index.html所在文件夹中4、打开命令行进入到index.html所在文件夹中5、然后输入jd2chm回车6、依次输入将生存文件名称和生存文件的标题名称回车即可备注：MyEclipse生存html帮助文档的方法是：1、选择工程项目名；2、选择工具栏中的：project ——》 genarate javadoc... 然后顺序执行下去原文：http://www.cnblogs.com/shijiaoyun/p/41947...

vbs 解析 html 文档【图】

关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有js都不会被执行，只是干干净净的dom文档，所以在逼不得已的情况下开启 designMode 一般情况保持默认即可。Set html = CreateObject("htmlfile")Set http = CreateObject("Msxml2.ServerXMLHTTP")html.designMode = "on" ‘ 开启编...

HTML文档与盒子模型【代码】【图】

关于HTML　　百度百科里是这么说的：超文本标记语言，即HTML(Hypertext Markup Language)，是用于描述网页文档的一种标记语言。　　为什么叫用于“描述”网页文档的“标记”语言呢?　　简单地说，它不像Java，C++等程式语言，而是通过标记(也称标签)来表示一个网页的结构与内容，它的语法非常简单，只是由各种不同的标记组合而成，因此这类语言的学习方式主要靠积累，而非程式语言般靠理解来学习。　　HTML的构成HTML文件的结构通...

在html文档中引用外部另一个svg文件中的部分资源【代码】

HTML文档头部【代码】【图】

在声明文档类型之后，HTML文档的下一部分为<html>标签，告知浏览器应将括在<html>...</html>内的所有内容解析为HTML。然后是HTML文档的两个主要部分：<head>和<body>。<head>将包含有关页面的常规信息和元数据，本文将详细介绍HTML的文档头部<head> 概述<head>大部分不可见，描述了文档的一些基本的属性和信息(可以呈现的是title和icon)。<head>元素下的子元素主要包括<meta>、<title>、<base>、<link>、<style>和<script>这六个元...

HTML文档的经常使用标记【图】

一.HTML文档中经常使用的标记有文字标记、段落标记、列表标记、超链接标记、图像标记、表格标记、框架标记和多媒体标记，以下对这些经常使用标记进行介绍：1.文字标记：文字是网页重要的组成部分之中的一个，通过使用标题标记、文字格式标记和文字样式标记来改变枯燥乏味的文字。能够使浏览者更有效的浏览网页。以下对标题标记、文字格式标记和文字样式标记进行介绍：1.1.标题标记<hn>...</hn>：(1).在浏览网页时经常看到一些标题文...

CSS入门 XHTML文档结构树【图】

CSS通过与(X)HTML的文档结构相对应的选择器（selector）来达到控制页面表现的目的，而文档结构不仅仅在CSS的应用上非常重要，对于行为层（例如使用JavaScript控制元素的行为）同样也非常重要。　　文档结构(X)HTML文档可以看作一个家族树，这个树有1个祖先——根元素，然后各元素依次向下排列，例如有XHTML代码如下，其文档树如图4-1所示。 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtm...

HTML DOM 定义了访问和操作 HTML 文档的标准方法。

HTML DOM 定义了访问和操作 HTML 文档的标准方法。DOM 以树结构表达 HTML 文档。::::::::::::::::::::::::::::::::::::::::::::::::::HTML DOM 简介。。。。。。。。。什么是 DOM？DOM 是 W3C（万维网联盟）的标准。DOM 定义了访问 HTML 和 XML 文档的标准："W3C 文档对象模型（DOM）是中立于平台和语言的接口，它允许程序和脚本动态地访问和更新文档的内容、结构和样式。"W3C DOM 标准被分为 3 个不同的部分：核心 DOM - 针对任...

html监听 --- 监听html文档结构变化【代码】

/* config属性childList：子元素的变动attributes：属性的变动characterData：节点内容或节点文本的变动subtree：所有下属节点（包括子节点和子节点的子节点）的变动attributeFilter: 监听制定属性[attrName] record属性type:观察的变动类型（attribute、characterData或者childList）。target:发生变动的DOM对象。addedNodes:新增的DOM对象。removeNodes:删除的DOM对象。previousSibling:前一个同级的DOM对象，如果没有则返回...

利用PHP生成静态HTML文档的原理

给出代码：复制代码代码如下:<?php //引入数据库配置文件 include( dirname(dirname(__FILE__))."\include\config.php" ); /** * * 将数据库中的文章生成单个HTML文件. * @param Date $Date * @param Time $Time * @param String $Content * @param String $Title */ function GenerateHTML($Date,$Time,$Content,$Title,$Name){ //将日期、时间变量分解成数组 $GetDateRow = explode("-", $Date); $GetTimeRow = explode(":",$T...

c# – 在没有DocumentViewer的情况下显示HTML文档的打印预览【代码】

我有一个C#/ WPF应用程序,我需要在其中显示HTML文档的打印预览 – 基本上就像在Firefox或甚至IE中查看打印预览时所看到的那样.我知道DocumentViewer,但是,我试图远离使用DocumentViewer控件,因为它看起来很慢,我需要显示的一些文档可以超过450页,我想尽快加载预览可能.有谁知道做这样的事情的优雅方式？我开始假设我需要创建自己的控件,但我真的不知道从哪里开始. 感谢您提供有关此类内容的任何建议或提示！解决方法:您可能希望使用...

首页 / HTML / Jsoup解析和遍历一个HTML文档(二)

Jsoup解析和遍历一个HTML文档(二)

内容导读

内容图文

内容总结

内容备注

内容手机端

【Jsoup解析和遍历一个HTML文档(二)】教程文章相关的互联网学习教程文章

HTML文档 - 相关标签

JSOUP - 相关标签

解析 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程