C#中HTML/XML处理及正则表达式

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了C#中HTML/XML处理及正则表达式，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2924字，纯文字阅读大概需要5分钟。

内容图文

HTML Parser
一个比较方便的html解析package是HtmlAgilityPack，可以按照如下图显示在Visual Studio中安装。
技术分享

使用该包的一个简单实例代码如下：

            
                public
                static
                bool
                CrawlCategoryReviewInfo(string categoryUrl)
        {
            var resp = HttpUtils.GetResponseData(categoryUrl);
            if (resp == null)
            {
                logger.Info("Failed to request the category page from Suning server!");
                returnfalse;
            }
            HtmlDocument document = new HtmlDocument();
            document.LoadHtml(resp);
            HtmlNodeCollection collection = document.DocumentNode.SelectNodes("//div[@id=‘productTab‘]//li[contains(@class,‘item‘)]");
            if (collection == null || collection.Count < 1) returnfalse;
            foreach(HtmlNode prod in collection)
            {
                if (prod == null || prod.Attributes["name"] == null) continue;
                string prodId = prod.Attributes["name"].Value;
                if(prodId.StartsWith("000000000")) prodId = prodId.Substring(9);
                HtmlNode commentNode = prod.SelectSingleNode(".//a[contains(@name,‘comment‘)]/i");
                if (commentNode == null) continue;
                int commentCount = int.Parse(commentNode.InnerText);
                Console.WriteLine(prodId + "\t" + commentCount);
            }
            if (collection.Count < int.Parse(ConfigurationManager.AppSettings["CAT_PAGE_ITEM_NUM"]))
                returnfalse;
            returntrue;
        }

需要特别注意的是，对于在HtmlNode内部找子HtmlNode所写的xpath，xpath需要在前面加上”.”，如上面的”.//a[contains(@name,’comment’)]/i”，否则可能会发现找的是全局的Node。

XML DOM
系统空间System.Xml.Linq中的XDocument可以帮助解析或者输出XML文件。
1) 加载解析XML:

            
                var filePath = Path.Combine(path, "image_status.xml");
            XDocument doc = XDocument.Load(filePath);
            var pics = doc.Descendants("pic");

            foreach (var pic in pics)
            {
                string url = (string)pic.Element("url");
                string imgFile = (string)pic.Element("file");

                processedImages.Add(url, imgFile);
            }

2) 保存生成XML

            
                var filePath = Path.Combine(path, "image_status.xml");
            var docUpdate = new XElement("status");

            foreach (var tuple in processedImages)
            {
                var item = new XElement("image");
                item.Add(new XElement("url", tuple.Key));
                item.Add(new XElement("file", tuple.Value));

                docUpdate.Add(item);
            }

            docUpdate.Save(filePath);

正则表达式抽取
利用正则表达式来抽取信息，其实不同语言的逻辑都一样，语法略有不同。这里不做介绍，仅仅给出一个抽取的例子作为参考。注意每一个匹配部分会用”?<—>”开头来对该Group命名，后面取匹配的数据的时候就可以借助这个名字得到相应的匹配值。

                    public static void CrawlProductReviewInfo()
        {
            string resp = "satisfy({\"reviewCounts\":[{\"oneStarCount\":2,\"twoStarCount\":0,\"threeStarCount\":23,\"fourStarCount\":43,\"fiveStarCount\":431,\"againCount\":4,\"bestCount\":0,\"picFlagCount\":5,\"totalCount\":499,\"qualityStar\":4.8}],\"returnCode\":\"1\",\"returnMsg\":\"成功获取评价个数\"})";
            Regex revRegex = new Regex("\"totalCount\":(?<comment>.*?),\"qualityStar\":(?<score>.*?)}"); 
            MatchCollection mc = revRegex.Matches(resp);
            if (mc.Count > 0)
            {
                var comment = decimal.Parse(mc[0].Groups["comment"].Value);
                var score = decimal.Parse(mc[0].Groups["score"].Value);
            }}

原文：http://blog.csdn.net/tanzhangwen/article/details/46549329

内容总结

以上是互联网集市为您收集整理的C#中HTML/XML处理及正则表达式全部内容，希望文章能够帮你解决C#中HTML/XML处理及正则表达式所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1284711.html

来源：【匿名】

【上一篇】【C#公共帮助类】 Log4net 帮助类【下一篇】assemblyinfo.csC#Assembly类访问程序集信息

更多 ►

【C#中HTML/XML处理及正则表达式】教程文章相关的互联网学习教程文章

HTML Parser 一个比较方便的html解析package是HtmlAgilityPack，可以按照如下图显示在Visual Studio中安装。使用该包的一个简单实例代码如下：publicstaticboolCrawlCategoryReviewInfo(string categoryUrl){var resp = HttpUtils.GetResponseData(categoryUrl);if (resp == null){logger.Info("Failed to request the category page from Suning server!");returnfalse;}HtmlDocument document = new HtmlDocument();document.L...

c# 正则表达式对网页进行有效内容抽取

搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说，就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分（我们这里不考虑图片）. 将HTML文本中的标记分为:注释,script ,style，以及其他标记分别去掉： 1.去注释,正则为: output = Regex.Replace(input, @"", string.Empty, RegexOptions.IgnoreCase); 2.去script,正则为: ouput = Regex.Replace(input, @"<script[^>]*?>.*?...

C#菜鸟正则表达式一【代码】

LZ菜鸟，仅整理笔记，顺带记录一下，谓之增加印象。　　LZ认为，没必要太纠结原理，模型，屌丝能用就对了，剩下的事情用多了自然会去探索。中文：正则表达式，英文：Regular ExPression，也叫匹配模式（pattern），用来检验字符串是否满足特定的规则，或从字符串捕获满足特定规则的子串。字符匹配最简单的正则表达式由“普通字符”和“通配符”组成。比如“Room\d\d\d”就是这样的正则表达式。其中 “R...

C#?正则表达式【代码】

C# 正则表达式正则表达式是一种匹配输入文本的模式。.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。定义正则表达式下面列出了用于定义正则表达式的各种类别的字符、运算符和结构。字符转义字符类定位点分组构造限定符反向引用构造备用构造替换杂项构造字符转义正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。下表列出了转义字符：转义字符描述模式匹...

在C#中使用正则表达式自动匹配并获取所需要的数据

转自：http://my.oschina.net/bv10000/blog/111736正则表达式能根据设置匹配各种数据（比如：e-mail地址，电话号码，身份中号码等等）。正则表达式功能强大，使用灵活，C#，Java，JavaScript等多种语言都支持正则表达式。在互联网上“抓取数据”更是少不了使用正则表达式。今天我要说的是在C#中使用正则表达式自动匹配并获取所需要的数据。从下面是某个IP查询网站返回查询结果的一个部分（字符串），现在就是要从这个字符串中获取...

C#中使用正则表达式提取超链接地址的集中方法【代码】

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)<a[^>]*?href=([‘""]?)(?<url>[^‘""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>"); MatchCollection mc = reg.Matches(yourStr); foreach (Match m in mc) { richTextBox2.Text += m.Groups["url"].Value + "\n";//得到href值 ...

c#使用正则表达式处理字符串【代码】【图】

正则表达式可以灵活而高效的处理文本，可以通过匹配快速分析大量的文本找到特定的字符串。可以验证字符串是否符合某种预定义的格式，可以提取，编辑，替换或删除文本子字符串。　　现在如下特定的字符串：string[] str = {"J-85J300-60K70/50","J-85J450-60K50/50","J-85J700-60K50/50","J-J130-180-T1","J-J170-150-T1","J-J1600","J-J250-50/70","J-J350-70/50"}; 　　现在想从抽取出特定的字符串 J-J130-180-T1和J-J170-150-T1，...

C#正则表达式Regex类的使用【代码】

C#中为正则表达式的使用提供了非常强大的功能，这就是Regex类。这个包包含于System.Text.RegularExpressions命名空间下面，而这个命名空间所在DLL基本上在所有的项目模板中都不需要单独去添加引用，可以直接使用。1、定义一个Regex类的实例Regex regex = new Regex(@"\d");这里的初始化参数就是一个正则表达式，“\d”表示配置数字。2、判断是否匹配判断一个字符串，是否匹配一个正则表达式，在Regex对象中，可以使用Regex.IsMatch...

c#正则表达式

需求：从一个文件中，提取所有的邮件地址。正则表达式是用来进行文本（字符串）处理的技术，与语言无关。主要用来描述字符串特征。特征：字符串中必须出现的内容，可能出现的内容，不能出现的内容三大特征。观察字符串规律，根据规律总结特征，然后根据特定字符串的特征来编写正则表达式。元字符1、"." :表示除\n（换行）之外的任意的单个字符。2、"[]" :表示其中的字符。只能选一个。例：a[0123456789]b 表示ab之间只能出现0...

C# 正则表达式判断是否是数字、是否含有中文、是否是数字字母组合【代码】

//判断输入是否包含中文不管你有没有输入英文,只要包含中文,就返回 truepublicstaticbool HasChinese(string content){//判断是不是中文string regexstr = @"[\u4e00-\u9fa5]";if (Regex.IsMatch(content, regexstr)){Log("HasChinese");returntrue;}else{Log("Has Not Chinese");returnfalse;}}//判断是不是数字publicstaticbool isInterger(string str){if (str == ""){returnfalse;}else{foreach (char c in str){if (char.Is...

C#-正则表达式

/ /　　中间写正则表达式^　　匹配开头$　　匹配结尾\d　　一个任意数字\w　　一个任意数字或字母\s　　任意字符串{n}　　把左边的表达式重复n遍{m,n}　　把左边的表达式重复至少m遍，至多n遍{m, }　　把左边的表达式重复至少m遍，至多不限+　　左边的表达式至少出现一次，至多不限，相当于{1, }*　　左边的表达式至少出现0次，至多不限，相当于{0, }?　　左边的表达式至少出现0次，至多出现1,次，相当于{0,1}[a,b,c]　　只能取方括...

C# 正则表达式转自-每日一bo【代码】【图】

最近写爬虫时需要用到正则表达式，有段时间没有使用正则表达式现在渐渐感觉有些淡忘，现在使用还需要去查询一些资料。为了避免以后这样的情况，在此记录下正则表达式的一些基本使用方法附带小的实例。让以后在使用时能一目了然知道他的使用，为开发节约时间，同时也分享给大家。正则元字符　　在说正则表达式之前我们先来看看通配符，我想通配符大家都用过。通配符主要有星号(*)和问号(?)，用来模糊搜索文件。winodws中我们常会使用...

C# 正则表达式【代码】

谈到C#正则表达式，标题还是有点偏了，正则表达式是所有语言都支持，不仅仅是C#，但是正则表达式的定义确实变化多样，不能表达式实现不同效果：正则表达式的基础知识：/******************************************常用元字符********************************************************/代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$匹...

C# 正则表达式测试工具与分享窗体自适应类【代码】【图】

放假刚回来,自己打算写一个正则表达式的测试工具，因为上次在网上用的一个在线正则表示测试工具就没有很好的服务自己的，所以才有了现在的想法，想写一个C#开发者用的正则表达式测试工具！期间由于最大化时控件不能同时放大，所以就找出以学习的时候用的一段代码，原作者是谁我自己也不知道，我把代码分享出来，需要的可以拿来用！原创作者可以消息我！需要这个工具的也可以留下邮箱！下面是工具的截图和窗体放大的效果图！下面是...

常用C#正则表达式【代码】

验证输入的字符串是否为数字///<summary>/// 验证输入字符串为数字 ///</summary>///<param name="P_str_num">输入字符</param>///<returns>返回一个bool类型的值</returns>publicbool validateNum(string P_str_num) { return Regex.IsMatch(P_str_num, "^[0-9]*$"); } 主要是改return Regex.IsMatch(p_str_num, 输入表达式);一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^\d{n}$ 3 至少n位的数字：^\d{n,}$ 4 m-...

C# - 技术教程分类

C# 教程 C# 简介 C# 环境 C# 程序结构 C# 基本语法 C# 数据类型 C# 类型转换 C# 变量 C# 常量 C# 运算符 C# 判断 C# 循环 C# 封装 C# 方法 C# 可空类型 C# 数组（Array） C# 字符串（String） C# 结构体（Struct） C# 枚举（Enum） C# 类（Class） C# 继承 C# 多态性 C# 运算符重载 C# 接口（Interface） C# 命名空间（Namespace） C# 预处理器指令 C# 异常处理 C# 特性（Attribute） C# 反射（Reflection） C# 属性（Property） C# 索引器（Indexer） C# 委托（Delegate） C# 事件（Event） C# 集合（Collection） C# 泛型（Generic） C# 匿名方法 C# 不安全代码 C# 多线程 c# 全部

C# - 最热教程

c#编程连接oracle数据库无法加载DLL(oc...一个适合新手C#程序员编写练习的小项目...C# 异步UDP发送接收数据 C#程序执行时间长和慢查询解决：线程并...c# aspose操作word文档 C#继承讲解以及对象的创建 jquery+ajax+C#实现无刷新操作数据库数...C#精髓 GridView72大绝技学习gridview...c# static的全部用法收集整理 js模拟实现类似c#下的hashtable的简单功...