首页 / C# / asp.net(c#)做一个网页数据采集工具

asp.net(c#)做一个网页数据采集工具

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了asp.net(c#)做一个网页数据采集工具，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5745字，纯文字阅读大概需要9分钟。

内容图文

通过这个软件一两天就完成了几千产品数据的录入，可见很多工作不是一味用人工去做，作为一个程序员，就是要让很多让那些经常做重复性的、繁琐的工作中的人解放出来。下面只是写了一些核心代码，而且采集必须要和对应网站相挂钩，作者：郑少群

代码如下:


//提取产品列表页中产品最终页的网页 
private void button1_Click(object sender, EventArgs e) 
{ 
if (textBox1.Text.Trim() == "" || textBox2.Text.Trim() == "") 
{ 
MessageBox.Show("网址和域名不能为空！", "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information); 
return; 
} 
try 
{ 
string Html = inc.GetHtml("http://study.pctoday.net.cn"); 
//ArrayList al = inc.GetMatchesStr(Html, "<a[^>]*?>.*?</a>"); 
ArrayList al = inc.GetMatchesStr(Html, @"href\s*=\s*(?:[\'\""\s](?<1>[^\""\']*)[\'\""])");//提取链接 


" title="Replica Watches:">Replica Watches Buy Full Quality Popular Luxury Watches at Amazing Price, Your One Stop Discount Swiss Watches StoreExclusive Replica Rolex Watches, Tag Heuer Watches Replica, Cartier Watches online Sale! 
StringBuilder sb = new StringBuilder(); 
foreach (object var in al) 
{ 
string a = var.ToString().Replace("\"", "").Replace("'", ""); 
a = Regex.Replace(a, "href=", "", RegexOptions.IgnoreCase | RegexOptions.Multiline); 
if (a.StartsWith("/")) 
a = textBox2.Text.Trim() + a; 
if (!a.StartsWith("http://")) 
a = "http://" + a; 
sb.Append(a + "\r\n"); 
} 
textBox5.Text = sb.ToString();//把提取到网址

输出到一个textBox，每个链接占一行

MessageBox.Show("共提取" + al.Count.ToString() + "个链接", "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information);

}
catch (Exception err)
{
MessageBox.Show("提取出错！原因：" + err.Message, "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information);
}

}

//把采集的产品页面html代码进行字符串处理，提取需要的代码，最后保存到本地一个access数据库中，同时提取产品图片地址并自动现在图片到本地images文件夹下

private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e)
{
//填充产品表
Database.ExecuteNonQuery("delete from Tb_Product");
DataTable dt2 = new DataTable();
OleDbConnection conn = new OleDbConnection(Database.ConnectionStrings);
OleDbDataAdapter da = new OleDbDataAdapter("select * from Tb_Product", conn);
OleDbCommandBuilder cb = new OleDbCommandBuilder(da);
da.Fill(dt2);
dt2.Rows.Clear();

BackgroundWorker worker = (BackgroundWorker)sender;//这个是做一个进度条

string[] Urls = textBox5.Text.Trim().ToLower().Replace("\r\n", ",").Split(',');
DataTable dt = new DataTable();
StringBuilder ErrorStr = new StringBuilder();
string html = "", ImageDir = AppDomain.CurrentDomain.BaseDirectory + "Images\\";

//循环每次采集网址
for (int i = 0; i < Urls.Length; i++)
{
try
{
if (!worker.CancellationPending)
{
if (Urls[i] == "")
return;
html = inc.GetHtml(Urls[i]);//获取该url的html代码
DataRow NewRow = dt2.NewRow();

//产品名
string ProductName = html.Substring(html.IndexOf("<title>") + 7);
NewRow["ProductName"] = ProductName.Remove(ProductName.IndexOf("</title>")).Trim();

//产品编号
NewRow["ModelId"] = NewRow["ProductName"].ToString().Substring(NewRow["ProductName"].ToString().IndexOf("Model:") + 6).Trim();

//产品介绍，这些都是根据不同网站的html做相应的修改
string Introduce = html.Substring(html.IndexOf("Product Details") + 26);
Introduce = Introduce.Remove(Introduce.IndexOf("</table>") + 8).Trim()

NewRow["Introduce"] = Introduce;

" title="Replica Watches:">Replica Watches Buy Full Quality Popular Luxury Watches at Amazing Price, Your One Stop Discount Swiss Watches StoreExclusive Replica Rolex Watches, Tag Heuer Watches Replica, Cartier Watches online Sale!
//下载图片
string ProductImage = html.Substring(html.IndexOf("align=center><img") + 17);
ProductImage = textBox2.Text.Trim() + ProductImage.Substring(ProductImage.IndexOf("src=\"") + 5);
ProductImage = ProductImage.Remove(ProductImage.IndexOf("\""));
try
{
inc.DownFile(ProductImage, ImageDir + ProductImage.Substring(ProductImage.LastIndexOf("/") + 1));
}
catch (Exception)
{
ErrorStr.Append("下载图片失败，图片地址：" + ImageDir + ProductImage.Substring(ProductImage.LastIndexOf("/") + 1) + "\r\n");
}

dt2.Rows.Add(NewRow);

//Thread.Sleep(100);
worker.ReportProgress((i + 1) * 100 / Urls.Length, i);
toolStripStatusLabel1.Text = "处理进度:" + (i + 1).ToString() + "/" + Urls.Length.ToString();//进度条
}

}
catch (Exception err)
{
ErrorStr.Append("采集错误：" + err.Message + ";网址：" + Urls[i] + "\r\n");
}
}
da.Update(dt2);
DataBind(dt2);
ShowError(ErrorStr.ToString());
}

/// <summary>
/// ASPX页面生成静态Html页面，作者：郑少群
/// </summary>
public static string GetHtml(string url)
{
StreamReader sr = null;
string str = null;
//读取远程路径
WebRequest request = WebRequest.Create(url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
sr = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding(response.CharacterSet));
str = sr.ReadToEnd();
sr.Close();
return str;
}

// 提取HTML代码中的网址
public static ArrayList GetMatchesStr(string htmlCode, string strRegex)
{
ArrayList al = new ArrayList();

Regex r = new Regex(strRegex, RegexOptions.IgnoreCase | RegexOptions.Multiline);
MatchCollection m = r.Matches(htmlCode);

for (int i = 0; i < m.Count; i++)
{
bool rep = false;
string strNew = m[i].ToString();

// 过滤重复的URL
foreach (string str in al)
{
if (strNew == str)
{
rep = true;
break;
}
}

if (!rep) al.Add(strNew);
}

al.Sort();

return al;
}

public static void DownFile(string Url, string Path)
{

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream stream = response.GetResponseStream();
long size = response.ContentLength;
//创建文件流对象
using (FileStream fs = new FileStream(Path, FileMode.OpenOrCreate, FileAccess.Write))
{
byte[] b = new byte[1025];
int n = 0;
while ((n = stream.Read(b, 0, 1024)) > 0)
{
fs.Write(b, 0, n);
}
}
}

内容总结

以上是互联网集市为您收集整理的asp.net(c#)做一个网页数据采集工具全部内容，希望文章能够帮你解决asp.net(c#)做一个网页数据采集工具所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/380555.html

来源：【匿名】

【上一篇】asp.net(C#)函数对象参数传递的问题【下一篇】assemblyinfo.csC#Assembly类访问程序集信息

更多 ►

【asp.net(c#)做一个网页数据采集工具】教程文章相关的互联网学习教程文章

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）【代码】【图】

一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第四篇，希望大家继续支持，为我继续写作提供动力。自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我，这个软件里面各种实用的功能是如何实现的。该软件使用.NET技术开发，为回馈社区，现将该软件中用到的核心技术，开辟一个专栏，写一个系列文章，以飨广大...

C# 采集页面【图】

首先大家需要清楚一点的是：任何网站的页面，无论是php、jsp、aspx这些动态页面还是用后台程序生成的静态页面都是可以在浏览器中查看其HTML源文件的。所以当你要开发数据采集程序的时候，你必须先对你试图采集的网站的前台页面结构（HTML）要有所了解。当你对要采集数据的网站里的HTML源文件内容十分熟悉之后，剩下程序上的事情就很好办了。因为C#对Web站点进行数据采集其原理就在于“把你要采集的页面HTML源文件下载下来，分析其中...

asp.net c#采集需要登录页面的实现原理及代码

首先说明：代码片段是从网络获取，然后自己修改。我想好的东西应该拿来分享。实现原理：当我们采集页面的时候，如果被采集的网站需要登录才能采集。不管是基于Cookie还是基于Session，我们都会首先发送一个Http请求头，这个Http请求头里面就包含了网站需要的Cookie信息。当网站接收到发送过来的Http请求头时，会从Http请求头获取相关的Cookie或者Session信息，然后由程序来处理，决定你是否有权限访问当前页面。好了，原理搞清楚了...

asp.net(c#)做一个网页数据采集工具

通过这个软件一两天就完成了几千产品数据的录入，可见很多工作不是一味用人工去做，作为一个程序员，就是要让很多让那些经常做重复性的、繁琐的工作中的人解放出来。下面只是写了一些核心代码，而且采集必须要和对应网站相挂钩，作者：郑少群代码如下://提取产品列表页中产品最终页的网页 private void button1_Click(object sender, EventArgs e) { if (textBox1.Text.Trim() == "" || textBox2.Text.Trim() == "") { MessageBox...

c#学习心得（5）数据采集上位机开发【图】

写在前面：纪念一下2020/7/21 第一个使用C#开发的上位机项目整体框架成型，具体是采集传感器的力，并计算，实时显示力曲线，并将数据保存，最初使用labview做出大致的效果，但是有一些bug,没有深入调试。而后因为visionpro的原因接触到C#,选择在.Net框架下开发上位机的Winform 程序，虽然真正用在其中的时间不多，但是也有想法到现在也过去几个月了。看了很多前辈的博客，参考了很多MSDN上的案例。非常感谢，特此贴下源码，供其...

C# 网页图片采集

博客原文地址：https://www.cnblogs.com/qq260250932/p/5361043.html using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Text.RegularExpressions; using System.Net; using System.IO; using System.Windows.Forms; namespace ImageCollect { public class GatherPic { private string savePath; private string getUrl; ...

C#中利用JQuery实现视频网站的缩略图采集【代码】【图】

原文链接：http://www.cnblogs.com/iamzyf/p/3439426.html最近有朋友想要采集优酷的视频标题和缩略图 (哈哈, 并非商业目的). 找到我帮忙, 考虑到有我刚刚发布的SpiderStudio, 我毫不犹豫的答应了. 首先在网页上视频的基本结构为:div.v- div.v-meta-title //标题- div.v-thumb / img //缩略图对应的JQuery表达式为:$("div.v").find("div.v-meta-title"); $("div.v").find("div.v-thumb img");然后运行SpiderStudio, 编写相关脚本:p...

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)【代码】【图】

阅读目录1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源第一次接触HtmlAgilityPack是在5年前，一些意外，让我从技术部门临时调到销售部门，负责建立一些流程和寻找潜在客户，最后在阿里巴巴找到了很多客户信息，非常全面，刚开始是手动复制到Excel，是真尼玛的累，虽然那个时候C#还很菜，也想能不能通过程序来批量获取（所以平时想法要多才好）。几经周折，终于发现了HtmlAgilityPack神器，这几年也用Htm...

C#采集有声小说控制台(附源码)【代码】【图】

>> ' rel='nofollow' target='_blank'>为什么80%的码农都做不了架构师？>>> 首先感谢"北京 - 晴晴的分享", 咱们ttlsa游子群都乐于帮助和分享. 晴晴是咱们ttlsa第二位分享的妹纸. 妹纸说要发文章,打开RAR吓一跳,会.net的妹纸不得了.好了,以下是晴晴的原文. 今天给大家介绍下C#.net采集有声小说的demo,其实采集都是大同小意的，只要撑握好方法，所有数据都可以采集到。不多说。直接粘代码+注释. namespace CJ.BLL { ??? public c...

利用C# CefSharp Python采集某网站简历并自动发送邀请短信【代码】【图】

以往爬虫没怎么研究过，最近有个需求，要从某网站采集敏感信息，稍稍考虑了一下，决定利用C# Winform和Python一起来解决这个事件。整个解决方案不复杂：C#编写WinForm窗体，进行数据分析和采集, Python本来不想用的，一下子没找到C#下Woff字体转Xml的方案，而网上Python的则有很多，所以就加了一个Python方案，虽然就1个脚本。一、几个步骤：首先要模拟登录，登录完了进入简历采集，然后模拟下载，下载完了以后就可以看到求职者...

VS2017 C#用halcon采集本地图片【代码】

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using HalconDotNet;namespace ReadHalconImage { public partial class Form1 : Form { private HTuple WindowID; private HObject Image;public Form1() { InitializeComponent();Image = new HObje...

C# - 技术教程分类

C# 教程 C# 简介 C# 环境 C# 程序结构 C# 基本语法 C# 数据类型 C# 类型转换 C# 变量 C# 常量 C# 运算符 C# 判断 C# 循环 C# 封装 C# 方法 C# 可空类型 C# 数组（Array） C# 字符串（String） C# 结构体（Struct） C# 枚举（Enum） C# 类（Class） C# 继承 C# 多态性 C# 运算符重载 C# 接口（Interface） C# 命名空间（Namespace） C# 预处理器指令 C# 异常处理 C# 特性（Attribute） C# 反射（Reflection） C# 属性（Property） C# 索引器（Indexer） C# 委托（Delegate） C# 事件（Event） C# 集合（Collection） C# 泛型（Generic） C# 匿名方法 C# 不安全代码 C# 多线程 c# 全部

C# - 最热教程

c#编程连接oracle数据库无法加载DLL(oc...一个适合新手C#程序员编写练习的小项目...C# 异步UDP发送接收数据 C#程序执行时间长和慢查询解决：线程并...c# aspose操作word文档 C#继承讲解以及对象的创建 jquery+ajax+C#实现无刷新操作数据库数...C#精髓 GridView72大绝技学习gridview...c# static的全部用法收集整理 js模拟实现类似c#下的hashtable的简单功...

首页 / C# / asp.net(c#)做一个网页数据采集工具

asp.net(c#)做一个网页数据采集工具

内容导读

内容图文

内容总结

内容备注

内容手机端

【asp.net(c#)做一个网页数据采集工具】教程文章相关的互联网学习教程文章

C# - 技术教程分类

C# - 最新教程

C# - 最热教程