首页 / 正则 / c# 正则表达式对网页进行有效内容抽取

c# 正则表达式对网页进行有效内容抽取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了c# 正则表达式对网页进行有效内容抽取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3130字，纯文字阅读大概需要5分钟。

内容图文

搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说，就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分（我们这里不考虑图片）.
将HTML文本中的标记分为:注释,script ,style，以及其他标记分别去掉：
1.去注释,正则为:
output = Regex.Replace(input, @"", string.Empty, RegexOptions.IgnoreCase);
2.去script,正则为:
ouput = Regex.Replace(input, @"<script[^>]*?>.*?</script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
output2 = Regex.Replace(ouput , @"<noscript[^>]*?>.*?</noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
3.去style,正则为:
output = Regex.Replace(input, @"<style[^>]*?>.*?</style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
4.去其他HTML标记
result = result.Replace(" ", " ");
result = result.Replace(""", "\"");
result = result.Replace("<", "<");
result = result.Replace(">", ">");
result = result.Replace("&", "&");
result = result.Replace("<br>", "\r\n");
result = Regex.Replace(result, @"<[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase);
以上的代码中大家可以看到,我使用了RegexOptions.Singleline参数，这个参数很重要，他主要是为了让"."(小圆点)可以匹配换行符.如果没有这个参数，大多数情况下，用上面列正则表达式来消除网页HTML标记是无效的.
HTML发展至今，语法已经相当复杂,上面只列出了几种最主要的标记,更多的去HTML标记的正则我将在
Rost WebSpider 的开发过程中补充进来。
下面用c#实现了一个从HTML字符串中提取有效内容的类:
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
class HtmlExtract
{
#region private attributes
private string _strHtml;
#endregion
#region public mehtods
public HtmlExtract(string inStrHtml)
{
_strHtml = inStrHtml
}
public override string ExtractText()
{
string result = _strHtml;
result = RemoveComment(result);
result = RemoveScript(result);
result = RemoveStyle(result);
result = RemoveTags(result);
return result.Trim();
}
#endregion
#region private methods
private string RemoveComment(string input)
{
string result = input;
//remove comment
result = Regex.Replace(result, @"", string.Empty, RegexOptions.IgnoreCase);
return result;
}
private string RemoveStyle(string input)
{
string result = input;
//remove all styles
result = Regex.Replace(result, @"<style[^>]*?>.*?</style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
return result;
}
private string RemoveScript(string input)
{
string result = input;
result = Regex.Replace(result, @"<script[^>]*?>.*?</script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
result = Regex.Replace(result, @"<noscript[^>]*?>.*?</noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
return result;
}
private string RemoveTags(string input)
{
string result = input;
result = result.Replace(" ", " ");
result = result.Replace(""", "\"");
result = result.Replace("<", "<");
result = result.Replace(">", ">");
result = result.Replace("&", "&");
result = result.Replace("<br>", "\r\n");
result = Regex.Replace(result, @"<[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase);
return result;
}
#endregion

内容总结

以上是互联网集市为您收集整理的c# 正则表达式对网页进行有效内容抽取全部内容，希望文章能够帮你解决c# 正则表达式对网页进行有效内容抽取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/383412.html

来源：【匿名】

【上一篇】常用正则表达式比较实用【下一篇】正则表达式语法

更多 ►

【c# 正则表达式对网页进行有效内容抽取】教程文章相关的互联网学习教程文章

正则表达式基本概念

1. 分组 () 包裹的就是分组，可以得到结果，或者进行交换等整体操作2. 捕获 () 分组默认就是捕获组，(?:) 加上?:，就是非捕获组，只参与匹配，整体结果中会存在，消耗字符，分组不会在结果中，节约性能3. 环视 (?=) (?!) (?<=) (?<!) 有4种环视，分别可以正向和反向，匹配对应字符，字符只是参与匹配，整体结果中不出现，不消耗字符，分组不会出现在结果中4. 贪婪默认按符合的最长字符串匹配，就是贪婪模式。如果要换成非贪婪，只...

练习 : 正则表达式【代码】

一. 编程题1.写一个正则表达式判断一个字符串是否是ip地址规则：一个ip地址由4个数字组成，每个数字之间用.连接。每个数字的大小是0-255 255.189.10.37 正确 256.189.89.9 错误re_str1 = r'(((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))\.){3}((\d)|([1-9]\d)|((1\d{2})|(2(([0-4]\d)|(5[0-5])))))' while True:ip = input('请输入IP:')result = re.fullmatch(re_str1, ip)# print(result)if result:print('正确')else:pr...

正则表达式验证问题

<!DOCTYPE html><html><body><p>用户名正则表达式，4到16位（字母，数字，下滑线，减号）</p><p id="demo"></p><form action="" method="get"> <p>用户名: <input type="text" name="fname" required></p> <button onclick="myFunction1()">疯狂点我</button> <p>密码强度，最少6位，包括至少1个大写字母，1个小写字母，1个数字，1个特殊字符</p> <p>密码: <input type="password" name="lname" required></p> <button oncl...

JavaScript引用类型之RegExp类型(正则表达式)【代码】

ECMAScript中使用RegExp来支持正则表达式。使用下面类似Perl的语法,就可以创建一个正则表达式。var expression=/pattern/flags;如上代码：pattern ---pattern部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。falgs ---每个正则表达式都可带有一个或多个标志(flags),用于标明正则表达式的行为;以下是正则表达式的匹配模式所支持的3个标志:g : 表示全局模式,即模式将被应用于所...

linux正则表达式和正则表达式的一些命令

正则表达式是处理一批繁杂的数据，做到快速搜索，快速匹配，快速替换删除等功能的一种需求。常用正则表达式的命令有grep，sed，awk（三剑客）vi，egrep。其中egrep和awk还支持扩展的正则表达式。下面先介绍一下这些命令。vi和vim在以后介绍。 grep： -v：排除匹配内容。 -i：忽略大小写。 -o：只输出匹配内容。 -n：在行首显示行号。 -e:扩展的正则表达式（=egrep）。 ...

Python 正则表达式验证是否为素数

CODE:import rewhile True:number = int(input('Input number (0 to quit): '))if number == 0:breaksubject = ''.join([str((1)) for a in range(number)])reobj = re.compile(r"^1?$|^(11+?)\1+$")if reobj.search(subject):print "number %s is not prime number!" % numberelse:print "number %s is a prime number!" % number RESULT: Input number (0 to quit): 8 number 8 is not prime number! Input number (0 to quit): ...

js正则表达式语法[转]

1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例1：表达式 "c"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："c"；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）举例2：表达式 "bcd"，在匹配字符串...

正则表达式之数据验证与文本替换

一、数据验证用户名正则：4到16位（字母数字下划线减号）；密码强度正则：最少6位，包括至少1个，大写字母，1个小写字母，1个数字，1个特殊字符；EMAIL正则：；身份证号正则：；一、文本替换Paul ,paula ,paul ,spaulpaul replace Ringo；原文：https://www.cnblogs.com/abcdecsf/p/9866653.html

正则表达式【图】

正则表达式即另一种表单校验方法.RegExp对象是Regula Expression(正则表达式)的缩写,其作用是对字符串执行模式匹配.如:验证电子邮件地址,电话号码等字符串.1.定义正则表达式定义正则表达式有两种构造形式:普通方式;构造函数方式. a.普通方式: 语法: var reg = /表达式/(附加参数) (注:表达式-使用某些特殊字符来代表特殊的规则附加参数-用来扩展表达式的含义,主要包括三个参数 ☆ g-代表可以...

vim 使用正则表达式【代码】

任何一个现代编辑器或编程语言，如果不支持正则表达式，则可考虑立刻放弃，因为正则表达式不仅仅只是高效，还有点身份地位象征的意味。正则表达式指使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。如果用vi而不懂正则表达式，则等于根本不会用。正则表达式是vi处理文本最有力的武器，稍微上点“档次”的编辑器或语言都支持正则表达式。花点时间学习正则表达式是跟普通程序员拉开距离的捷径。正则表达式至少可以做到...

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式不是java的东西，它是独立的一套体系，它可以描述字符串的规则，格式上的规则，通用匹配。java写了一套库来支持正则表达式，其他的语言也可以使用正则表达式，所以不是java的专利。Java核心APIJava SE 01 day02 ****************************************************************************API接受。开发工具：Ctrl+F 查找Regular expressions正则表达式Find：String（最简单的正则，字符串）Case sensitive大小写严...

正则表达式

正则表达式正则表达式的基础知识原子普通字符 “yue”即为三个原子y u e非打印字符原子表 [xyz]中xyz可以匹配[^xyz]除了xzy都可以匹配通用字符 \w \W \d \D \s \S元字符常见的元字符任意匹配元字符边界限制元字符限定符模式选择符模式单元模式修正贪婪模式与懒惰模式正则表达式常见函数re.match()函数从源字符开头开始检索re.search() 从全文检索全局匹配函数 re.compile()对正则表达式预编译编译后，使用findall()全部找出re....

shell下正则表达式与其工具grep【代码】【图】

一.grep相关知识1.grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。2.grep工作原理 grep有两种模式：Basic和Extend模式。在Basic模式下，命令直接grep ，其中的？、+、{}、|、()都被解释为普通字符，如果要使用其的特殊意义，就必须对其用转义字符进行转义。在Extend模式...

正则表达式

一、正则表达式在文本处理中的常用：1.表达文本类型的特征（病毒、入侵等）　　2.同时查找或替换一组字符串　　3.匹配字符串的全部或部分（主要）　二、正则表达式的常用操作符操作符说明.表示任何单个字符[]给定单个字符的取值范围[^]限定字符的取值不能是括号里的字符*前一个字符扩展0次或者无限次+前一个字符扩展1次或无限次?前一个字符扩展0次或者1次|左右表达式中的任意一个{m}前一个字符扩展m次{m,n}前一个字符扩展m至n次^不...

正则表达式匹配不包含某些字符串【代码】

正则表达式匹配不包含某些字符串：　　^((?!@).)*$ //如果包含@字符串会被匹配处理publicstaticvoid main(String[] args){String reg = "^((?!@).)*$";System.out.println("gdfgfgdffgn".matches(reg));}　　字符串不包含@，返回true原文：https://www.cnblogs.com/senlinyang/p/8651884.html

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...java网页爬虫正则表达式 java-检查字符串是否仅包含字母空格和引...python 正则表达式与JSON-JSON

首页 / 正则 / c# 正则表达式对网页进行有效内容抽取

c# 正则表达式对网页进行有效内容抽取

内容导读

内容图文

内容总结

内容备注

内容手机端

【c# 正则表达式对网页进行有效内容抽取】教程文章相关的互联网学习教程文章

正则表达式基本概念

练习 : 正则表达式【代码】

正则表达式验证问题

JavaScript引用类型之RegExp类型(正则表达式)【代码】

linux正则表达式和正则表达式的一些命令

Python 正则表达式验证是否为素数

js正则表达式语法[转]

正则表达式之数据验证与文本替换

正则表达式【图】

vim 使用正则表达式【代码】

JAVASE01---Unit02：正则表达式、 Object 、包装类

正则表达式

shell下正则表达式与其工具grep【代码】【图】

正则表达式

正则表达式匹配不包含某些字符串【代码】

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程