首页 / HTML / 使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose

使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含9423字，纯文字阅读大概需要14分钟。

内容图文

使用 XPATH 和 HTML Cleaner 解析 HTML/XML
（Using XPATH and HTML Cleaner to parse HTML / XML）

太阳火神的美丽人生 ()

本文遵循“署名-非商业用途-保持一致”创作公用协议

转载请保留此句：太阳火神的美丽人生 - 本博客专注于敏捷开发及移动和物联设备研究：iOS、Android、Html5、Arduino、pcDuino，否则，出自本博客的文章拒绝转载或再转载，谢谢合作。

使用 XPATH 和 HTML Cleaner 解析 HTML/XML
（Using XPATH and HTML Cleaner to parse HTML / XML）

JANUARY 5, 2010

tags: android, examples, HTML, parse, scraping, XML, XPATH

大家好
Hey everyone,

有时我发现有一种能力十分有用，尤其在 Web 相关的应用中，那就是从 web 站点获取 HTML 并且从 HTML 解析数据，或是任何你要想得到的内容（对于我的情况大多总是数据）。
So something that I’ve found to be extremely useful (especially in web related applications) is the ability to retrieve HTML from websites and parse their HTML for data or whatever you may be looking for (in my case it is almost always data).

I actually use this technique to do the real time stock/option imports for my Black-Scholes/Implied Volatility applications, so if you’re looking for an example on how to retrieve and parse HTML and run “queries” over it using, say, XPATH, then this post is for you.

Now, before we begin, in order to do this you will have to reference an external JAR in your project’s build path. The JAR that I use comes from HtmlCleaner which even gives you an example of how they use it here HtmlCleaner Example, but in addition to that I’ll show you an example of how I use it.

public class OptionScraper {

// EXAMPLE XPATH QUERIES IN THE FORM OF STRINGS - WILL BE USED LATER

private static final String NAME_XPATH = "//div[@class='yfi_quote']/div[@class='hd']/h2" ;

private static final String TIME_XPATH = "//table[@id='time_table']/tbody/tr/td[@class='yfnc_tabledata1']" ;

private static final String PRICE_XPATH = "//table[@id='price_table']//tr//span" ;

// TAGNODE OBJECT, ITS USE WILL COME IN LATER

private static TagNode node;

// A METHOD THAT HELPS ME RETRIEVE THE STOCK OPTION'S DATA BASED OFF THE NAME (I.E. GOUAA IS ONE OF GOOGLE'S STOCK OPTIONS)

public static Option getOptionFromName(String name) throws XPatherException, ParserConfigurationException,SAXException, IOException, XPatherException {

// THE URL WHOSE HTML I WANT TO RETRIEVE AND PARSE

String option_url = " http://finance.yahoo.com/q?s=" + name.toUpperCase();

// THIS IS WHERE THE HTMLCLEANER COMES IN, I INITIALIZE IT HERE

HtmlCleaner cleaner = new HtmlCleaner();

CleanerProperties props = cleaner.getProperties();

props.setAllowHtmlInsideAttributes( true );

props.setAllowMultiWordAttributes( true );

props.setRecognizeUnicodeChars( true );

props.setOmitComments( true );

// OPEN A CONNECTION TO THE DESIRED URL

URL url = new URL(option_url);

URLConnection conn = url.openConnection();

//USE THE CLEANER TO "CLEAN" THE HTML AND RETURN IT AS A TAGNODE OBJECT

node = cleaner.clean( new InputStreamReader(conn.getInputStream()));

// ONCE THE HTML IS CLEANED, THEN YOU CAN RUN YOUR XPATH EXPRESSIONS ON THE NODE, WHICH WILL THEN RETURN AN ARRAY OF TAGNODE OBJECTS (THESE ARE RETURNED AS OBJECTS BUT GET CASTED BELOW)

Object[] info_nodes = node.evaluateXPath(NAME_XPATH);

Object[] time_nodes = node.evaluateXPath(TIME_XPATH);

Object[] price_nodes = node.evaluateXPath(PRICE_XPATH);

// HERE I JUST DO A SIMPLE CHECK TO MAKE SURE THAT MY XPATH WAS CORRECT AND THAT AN ACTUAL NODE(S) WAS RETURNED

if (info_nodes.length > 0 ) {

// CASTED TO A TAGNODE

TagNode info_node = (TagNode) info_nodes[ 0 ];

// HOW TO RETRIEVE THE CONTENTS AS A STRING

String info = info_node.getChildren().iterator().next().toString().trim();

// SOME METHOD THAT PROCESSES THE STRING OF INFORMATION (IN MY CASE, THIS WAS THE STOCK QUOTE, ETC)

processInfoNode(o, info);

}

if (time_nodes.length > 0 ) {

TagNode time_node = (TagNode) time_nodes[ 0 ];

String date = time_node.getChildren().iterator().next().toString().trim();

// DATE RETURNED IN 15-JAN-10 FORMAT, SO THIS IS SOME METHOD I WROTE TO JUST PARSE THAT STRING INTO THE FORMAT THAT I USE

processDateNode(o, date);

}

if (price_nodes.length > 0 ) {

TagNode price_node = (TagNode) price_nodes[ 0 ];

double price = Double.parseDouble(price_node.getChildren().iterator().next().toString().trim());

o.setPremium(price);

}

return o;

}

So that’s it! Once you include the JAR in your build path, everything else is pretty easy! It’s a great tool to use. However, it does require knowledge of XPATH but XPATH isn’t too hard to pick up and is useful to know so if you don’t know it then take a look at the link.

Now, a warning to everyone. It’s documented that the XPATH expressions recognized by HtmlCleaner is not complete in the sense that only “basic” XPATH is recognized. What’s excluded? For instance, you can’t use any of the “axes” operators (i.e. parent, ancestor, following, following-sibling, etc), but in my experience everything else is fair game. Yes, it sucks, and many times it can make your life a little bit harder, but usually it just requires you to be a tad more clever with your XPATH expressions before you can pull the desired information.

And of course, this technique works for XML documents as well!

Hope this was helpful to everyone. Let me know if you’re confused anywhere.

- jwei

内容总结

以上是互联网集市为您收集整理的使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose全部内容，希望文章能够帮你解决使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/399839.html

来源：【匿名】

【上一篇】纯CSS3实现图片展示特效_html/css_WEB-ITnose 【下一篇】PHP 和 HTML

更多 ►

【使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose】教程文章相关的互联网学习教程文章

第二章复杂HTML解析【代码】

bsObj.findAll(tagName, tagAttributes).get_text() 会把这些超链接、段落和标签都清除掉，只剩下一串不带标签的文字。findAll(tag, attributes, recursive, text, limit, keywords) find(tag, attributes, recursive, text, keywords).findAll({"h1","h2","h3","h4","h5","h6"}).findAll("span", {"class":{"green", "red"}})nameList = bsObj.findAll(text="the prince") print(len(nameList))from urllib.request import urlop...

[Python]HTML/XML解析器Beautiful Soup

【简介】Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。即HTML/XMLX的解析器。它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。【安装】下载地址：点击打开链接Linux平台安装：如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:$ apt-get install Python-bs4Beautiful Soup 4 通过P...

HTML使用XPATH解析XML【代码】

test.xml： <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">...

浏览器是怎样工作的：渲染引擎，HTML解析【代码】【图】

渲染引擎渲染引擎的职责是……渲染，也就是把请求的内容显示到浏览器屏幕上。默认情况下渲染引擎可以显示HTML，XML文档以及图片。通过插件（浏览器扩展）它可以显示其它类型文档。比如使用PDF viewer插件显示PDF文件。我们会在一个专门的章节讨论插件与扩展。在这一节我们将专注渲染引擎的主要用途——显示用CSS格式化的HTML与图片。各种渲染引擎我们提到的Firefox, Safari两种浏览器构建于两种渲染引擎之上：Firefox使用Gecko —...

用php解析html的实现代码

最近想用php写一个爬虫，就需要解析html，在sourceforge上找到一个项目叫做PHP Simple HTML DOM Parser，它可以以类似jQuery的方式通过css选择器来返回指定的DOM元素，功能十分强大。首先要在程序的开始引入simple_html_dom.php这个文件复制代码代码如下:include_once(‘simple_html_dom.php‘); PHP Simple HTML DOM Parser提供了3种方式来创建DOM对象复制代码代码如下:// Create a DOM object from a string $html = str_ge...

HTML5实现文件上传下载功能实例解析【图】

前言：因自己负责的项目(jetty内嵌启动的SpringMvc)中需要实现文件上传，而自己对java文件上传这一块未接触过，且对 Http 协议较模糊，故这次采用渐进的方式来学习文件上传的原理与实践。该博客重在实践。一. Http协议原理简介 HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版...

解析HTML【图】

解析HTML一、什么是HTML HTML是超文本标签语言，即网页的源码。而浏览器就是翻译解释HTML源码的工具。二.HTML的基本结构 <!DOCTYPE html> 声明文档类型HTML5文档声明在HTML文档必不可少，且必须放在文档的第一行； <html> <head> head标签内的信息用于描述网页，即元数据 <meta charset="UTF-8"> <title>网页的标题</...

C# 解析HTML格式字符串（HtmlAgilityPack）【代码】【图】

官网地址：htmlagilitypack百度网盘下载地址：点击使用方法：　　1.引用HtmlAgilityPack.dll文件 2.引用命名空间：using HtmlAgilityPack; 3.调用（元素查找方式为xpath，用法参见w3school）：　　　　 staticvoid Main(string[] args){string html = GetHtml("http://www.w3school.com.cn/xpath/xpath_syntax.asp");HtmlDocument doc = new HtmlDocument();doc.LoadHtml(html);HtmlNode node = doc.DocumentNode...

【WebGoat习题解析】Parameter Tampering->Bypass HTML Field Restrictions【图】

The form below uses HTML form field restrictions. In order to pass this lesson, submit the form with each field containing an unallowed value. You must submit invalid values for all six fields in one form submission.1、这个习题如果直接用burp拦截提交请求后，发现Disabled input field没有被抓取到，所以就利用开发者工具将Disabled input field的“disabled”属性删掉2、利用burp拦截提交请求，并将6个输入区域(...

Jsoup解析html页面

<span style="font-size: x-large;"><strong>1a Temporada</strong></span> 解析style样式标签方法:Document.getElementsByAttributeValue("style","font-size: x-large;")原文：http://www.cnblogs.com/sam-cheng/p/7118160.html

Python之HTML的解析（网页抓取一）

http://blog.csdn.net/my2010sam/article/details/14526223---------------------对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要...

Jsoup解析和遍历一个HTML文档(二)【代码】【图】

关于Eclipse编辑器汇总console中字体调整： 1，下载jsoup的jar包：http://jsoup.org/download 2, jsoup英文的开发手册：http://jsoup.org/cookbook/ 3，jsoup的jsoup cookbook中文版：http://www.open-open.com/jsoup/ - - - - - - - - - - - - - - - - ...

Apache-Tika解析HTML文档【代码】

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理HTML格式的文章，如下：package com.mengyao.tika.app;import java.io.File; import java.io.FileInputStream;import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.html.HtmlParser; import org.apache.tika.sax.BodyContentHandler;publicclass HtmlApp...

jsoup解析Html

何使用Jsoup这个库来解析我们的网页，并且如何对我们想解析的网页进行分析。Jsoup这个库的下载地址：http://jsoup.org/downloadJsoup的资料比较少，可供参考的可到其官网进行学习这个库的使用：http://www.open-open.com/jsoup/API查阅地址：http://jsoup.org/apidocs/其中获取html代码，可以使用如下代码实现： [java] view plaincopyprint?public String getHtmlString(String urlString) { try { URL url = new U...

Delphi 解析HTML【代码】

procedure TForm1.btnphClick(Sender: TObject); varDocument: IHTMLDocument2;FTableCollection, tempCoc: IHTMLElementCollection;table: IHTMLTABLE;TableRow: IHTMLTableRow;elmt: IHTMLEleMent;I, J, K: integer;str: string; beginDocument := WebBrowser1.Document as IHTMLDocument2;FTableCollection := Document.all;FTableCollection.Length; //FTableCollection.item(1, 0);FTableCollection := Document.all.tags(‘t...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / 使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose

使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用XPATH和HTMLCleaner解析HTML/XML（UsingXPATHandHTMLCleanertoparseHTML/XML）_html/css_WEB-ITnose】教程文章相关的互联网学习教程文章

第二章复杂HTML解析【代码】

[Python]HTML/XML解析器Beautiful Soup

HTML使用XPATH解析XML【代码】

浏览器是怎样工作的：渲染引擎，HTML解析【代码】【图】

用php解析html的实现代码

HTML5实现文件上传下载功能实例解析【图】

解析HTML【图】

C# 解析HTML格式字符串（HtmlAgilityPack）【代码】【图】

【WebGoat习题解析】Parameter Tampering->Bypass HTML Field Restrictions【图】

Jsoup解析html页面

Python之HTML的解析（网页抓取一）

Jsoup解析和遍历一个HTML文档(二)【代码】【图】

Apache-Tika解析HTML文档【代码】

jsoup解析Html

Delphi 解析HTML【代码】

HTML - 相关标签

XML - 相关标签

CSS - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程