TempContent 表示包含有html的字符串; TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]+>","");至少一个 TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]*>","");任意个 原文:http://www.jb51.net/article/2465.htm
private int IsDigitOrNumber(string str)
{if(System.Text.RegularExpressions.Regex.IsMatch(str,@"(?i)^[0-9a-z]+$"))return 1;else return 0;
}
原文:http://www.cnblogs.com/qinweizhi/p/7117717.html
publicstaticstring AddNewLine(string inString,int num,string addString="\r\n"){return Regex.Replace(inString, string.Format(@".{{{0}}}", num), "$0"+addString);} 原文:http://www.cnblogs.com/simadi/p/3897779.html
RegexSystem.Text.RegularExpressions.Regex regex应该是regular expression的缩写https://msdn.microsoft.com/zh-cn/library/system.text.regularexpressions.regex(v=vs.110).aspxRepresents an immutable regular expression.【immutable 不可变的】 代表了不可变的正则表达式The Regex class represents the .NET Framework‘s regular expression engine. It can be used to quickly parse large amounts of text to fin...
原文:C# -- 正则表达式匹配字符之含义C#正则表达式匹配字符之含义1.正则表达式的作用:用来描述字符串的特征。2.各个匹配字符的含义:. :表示除\n以外的单个字符[ ] :表示在字符数组[]中罗列出来的字符任意取单个| :表示“或”的意思() :表示改变优先级或"提取组"* :限定前面的表达式出现0次或多次+ :限定前面的表达式出现1次或多次? :限定前面的表达式出现0次或1次^ :表示以表达式开头(例:^http表示字符串...
原文地址:http://blog.csdn.net/lhfly/article/details/7684319 整理两个 在C#中,用正则表达式 获取网页源代码标签的属性或值的方法 :1、获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN///<summary>/// 获取字符中指定标签的值///</summary>///<param name="str">字符串</param>///<param name="title">标签</param>///<returns>值</returns>publicstaticstring GetTitleContent(string str, stri...
工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 1public List<string[]> GetUrl()2 {3try 4 {5string url = "http://baijia.baidu.com/";6 WebRequest webRequest = WebRequest.Create(url);7 WebResponse webResponse = webRequest.GetResponse();...
C#正则表达式的基本用法正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。[http://www.runoob.com/regexp/regexp-syntax.html]关于正则表达式的各种字符的介绍,参考上述链接内容即可。在C#中,正则表达式相关的类有Regex、Match、MatchCollenction这几个。以下代码匹配了字符串中以‘|’结尾的片段: Regex ...
本文介绍C#正则表达式,新手朋友注意一定要手册一下哦,这样可以节省很多写代码的时间。包括介绍利用正则表达式分解和转换IP地址。AD: 2013云计算架构师峰会课程资料下载 这是我花了不少时间整理的C#正则表达式,新手朋友注意一定要手册一下哦,这样可以节省很多写代码的时间。只能输入数字:"^[0-9]*$".只能输入n位的数字:"^\d{n}$".只能输入至少n位的数字:"^\d{n,}$".只能输入m~n位的数字:."^\d{m,n}$"只能输入零和非零开头...
HTML Parser
一个比较方便的html解析package是HtmlAgilityPack,可以按照如下图显示在Visual Studio中安装。 使用该包的一个简单实例代码如下:publicstaticboolCrawlCategoryReviewInfo(string categoryUrl){var resp = HttpUtils.GetResponseData(categoryUrl);if (resp == null){logger.Info("Failed to request the category page from Suning server!");returnfalse;}HtmlDocument document = new HtmlDocument();document.L...
搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase); 2.去script,正则为: ouput = Regex.Replace(input, @"<script[^>]*?>.*?...
LZ菜鸟,仅整理笔记,顺带记录一下,谓之增加印象。 LZ认为,没必要太纠结原理,模型, 屌丝能用就对了,剩下的事情用多了自然会去探索。 中文:正则表达式,英文:Regular ExPression,也叫匹配模式(pattern),用来检验字符串是否满足特定的规则,或从字符串捕获满足特定规则的子串。 字符匹配 最简单的正则表达式由“普通字符”和“通配符”组成。比如“Room\d\d\d”就是这样的正则表达式。 其中 “R...
C# 正则表达式正则表达式 是一种匹配输入文本的模式。.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。定义正则表达式下面列出了用于定义正则表达式的各种类别的字符、运算符和结构。字符转义字符类定位点分组构造限定符反向引用构造备用构造替换杂项构造字符转义正则表达式中的反斜杠字符(\)指示其后跟的字符是特殊字符,或应按原义解释该字符。下表列出了转义字符:转义字符描述模式匹...
转自:http://my.oschina.net/bv10000/blog/111736正则表达式能根据设置匹配各种数据(比如:e-mail地址,电话号码,身份中号码等等)。正则表达式功能强大,使用灵活,C#,Java,JavaScript等多种语言都支持正则表达式。在互联网上“抓取数据”更是少不了使用正则表达式。今天我要说的是在C#中使用正则表达式自动匹配并获取所需要的数据。 从下面是某个IP查询网站返回查询结果的一个部分(字符串),现在就是要从这个字符串中获取...
一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)<a[^>]*?href=([‘""]?)(?<url>[^‘""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");
MatchCollection mc = reg.Matches(yourStr);
foreach (Match m in mc) { richTextBox2.Text += m.Groups["url"].Value + "\n";//得到href值 ...