首页 / ASP.NET / asp.net 抓取网页源码三种实现方法

asp.net 抓取网页源码三种实现方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了asp.net 抓取网页源码三种实现方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3098字，纯文字阅读大概需要5分钟。

内容图文

方法1 比较推荐

复制代码代码如下:

/// <summary>
        /// 用HttpWebRequest取得网页源码
        /// 对于带BOM的网页很有效，不管是什么编码都能正确识别
        /// </summary>
        /// <param name="url">网页地址" </param>
        /// <returns>返回网页源文件</returns>
        public static string GetHtmlSource2(string url)
        {
            //处理内容
            string html = "";
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
            request.Accept = "*/*"; //接受任意文件
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)"; // 模拟使用IE在浏览 http://www.52mvc.com
            request.AllowAutoRedirect = true;//是否允许302
            //request.CookieContainer = new CookieContainer();//cookie容器，
            request.Referer = url; //当前页面的引用

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            StreamReader reader = new StreamReader(stream, Encoding.Default);
            html = reader.ReadToEnd();
            stream.Close();

            return html;
        }

方法2

复制代码代码如下:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.IO;
using System.Text;
using System.Net;

namespace MySql
{
    public class GetHttpData
    {
        public static string GetHttpData2(string Url)
        {
            string sException = null;
            string sRslt = null;
            WebResponse oWebRps = null;
            WebRequest oWebRqst = WebRequest.Create(Url);
            oWebRqst.Timeout = 50000;
            try
            {

oWebRps = oWebRqst.GetResponse();

            }
            catch (WebException e)
            {
                sException = e.Message.ToString();
            }
            catch (Exception e)
            {
                sException = e.ToString();
            }
            finally
            {
                if (oWebRps != null)
                {
                    StreamReader oStreamRd = new StreamReader(oWebRps.GetResponseStream(), Encoding.GetEncoding("utf-8"));
                    sRslt = oStreamRd.ReadToEnd();
                    oStreamRd.Close();
                    oWebRps.Close();
                }
            }
            return sRslt;
        }
    }
}

方法3

复制代码代码如下:

    public static string getHtml(string url, params string [] charSets)//url是要访问的网站地址，charSet是目标网页的编码，如果传入的是null或者""，那就自动分析网页的编码
    {
        try
        {
            string charSet = null;
            if (charSets.Length == 1) {
                charSet = charSets[0];
            }
            WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient
            // 需要注意的：
            //有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等
            //这是就要具体问题具体分析比如在头部加入cookie
            // webclient.Headers.Add("Cookie", cookie);
            //这样可能需要一些重载方法。根据需要写就可以了

            //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
            myWebClient.Credentials = CredentialCache.DefaultCredentials;
            //如果服务器要验证用户名,密码
            //NetworkCredential mycred = new NetworkCredential(struser, strpassword);
            //myWebClient.Credentials = mycred;
            //从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号）
            byte[] myDataBuffer = myWebClient.DownloadData(url);
            string strWebData = Encoding.Default.GetString(myDataBuffer);

            //获取网页字符编码描述信息
            Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
            string webCharSet = charSetMatch.Groups[2].Value;
            if (charSet == null || charSet == "")
                charSet = webCharSet;

            if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
            {
                strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
            }
            else {
                strWebData = Encoding.GetEncoding("utf-8").GetString(myDataBuffer);
            }
            return strWebData;
        }
        catch (Exception e) { return ""; }
    }

原文：http://www.jb51.net/article/37933.htm

内容总结

以上是互联网集市为您收集整理的asp.net 抓取网页源码三种实现方法全部内容，希望文章能够帮你解决asp.net 抓取网页源码三种实现方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1176583.html

来源：【匿名】

【上一篇】AS脚本与Asp.net通过UrlRequest进行前端交互的心得【下一篇】asp.net伪静态关于页面优化和伪静态

更多 ►

【asp.net 抓取网页源码三种实现方法】教程文章相关的互联网学习教程文章

ASP.NET抓取网页内容的实现方法

本文实例讲述了ASP.NET抓取网页内容的实现方法。分享给大家供大家参考。具体实现方法如下：一、ASP.NET 使用HttpWebRequest抓取网页内容复制代码代码如下:/// <summary>方法一：比较推荐 /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效，不管是什么编码都能正确识别 /// </summary> /// <param name="url">网页地址" </param> /// <returns>返回网页源文件</returns> public static string GetHtmlSour...

asp.net 抓取网页源码三种实现方法

方法1 比较推荐复制代码代码如下:/// <summary> /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效，不管是什么编码都能正确识别 /// </summary> /// <param name="url">网页地址" </param> /// <returns>返回网页源文件</returns> public static string GetHtmlSource2(string url) { //处理内容 string html = "...

PHP模拟asp.net的StringBuilder类实现方法【代码】

本文实例讲述了PHP模拟asp.net的StringBuilder类实现方法。分享给大家供大家参考。具体如下：在asp.net开发开发环境中,有一个StringBuilder类是比较常用的, 这个类用起来可以实现很方便的text文本的操作. 但是在php中,没有这个类. 不过我们却可以通过自定义类来模拟这个方法. /******************************************** * * 函数名：StringBuilder * 作用：构造PHP下的StringBuilder类 * **********************************...

asp.net发送邮件实现方法

本文实例讲述了asp.net发送邮件的实现方法。分享给大家供大家参考。具体实现方法如下：复制代码代码如下: MailMessage mailMsg = new MailMessage(); //设置收件人的邮件地址 mailMsg.To = "bailichunwow@qq.com "; //设置发送者的邮件地址 mailMsg.From = "bailichun@vip.qq.com "; //设置邮件主题 mailMsg.Subject = "测试 "; //设置邮件内容 mailMsg.Body = "内容 "; mailMsg.Bod...

asp.net中倒计时自动跳转页面的实现方法(使用javascript)

首先，先建立一个用于跳转的页面，代码如下。复制代码代码如下:<%@ Page Language="C#" AutoEventWireup="true" CodeFile="LoginTiao.aspx.cs" Inherits="LoginTiao" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" ><head id="Head1" runat="server"> <title>跳转页面</title> <script type=...

asp.net中Datalist使用数字分页的实现方法

复制代码代码如下:<%@ Page Language="C#" AutoEventWireup="true" CodeFile="Test(Datalist数字分页).aspx.cs" Inherits="Test_Datalist数字分页_" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head runat="server"> <title>无标题页</title> <link href="CSS/CSS.css" rel="stylesheet" typ...

ASP.net Substitution 页面缓存而部分不缓存的实现方法

文件1:Deafault.aspx 代码如下:<%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default.aspx.cs" Inherits="_Default" %> <%@ outputcache duration="10" varybyparam="none" %>  <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html> <head id="Head1" runat="server"> <title>Substitution控件实例</title...

ASP.NET记录错误日志的实现方法

在本文中，我们将通过一个简单的处理来记录在我们的网站中的错误和异常。我们这样操作，每当遇到程序错误时，将使用者导航到一个单独的页面，同时错误将被记录到服务器上的一个文本文件，每当错误发生时,我们将以日志的形式每天记录。首先，我先写一个静态方法用于将错误信息记录到文本文件，这里是将错误信息记录到服务器上的Error文件夹下代码如下：代码如下:using System.Globalization; /// <summary> /// 用于将错误...

PHP模拟asp.net的StringBuilder类实现方法，_PHP教程

PHP模拟asp.net的StringBuilder类实现方法，本文实例讲述了PHP模拟asp.net的StringBuilder类实现方法。分享给大家供大家参考。具体如下：在asp.net开发开发环境中,有一个StringBuilder类是比较常用的, 这个类用起来可以实现很方便的text文本的操作. 但是在php中,没有这个类. 不过我们却可以通过自定义类来模拟这个方法. /******************************************** * * 函数名：StringBuilder * 作用：构造PHP下的StringBuil...

PHP模拟asp.net的StringBuilder类实现方法_PHP

本文实例讲述了PHP模拟asp.net的StringBuilder类实现方法。分享给大家供大家参考。具体如下：在asp.net开发开发环境中,有一个StringBuilder类是比较常用的, 这个类用起来可以实现很方便的text文本的操作. 但是在php中,没有这个类. 不过我们却可以通过自定义类来模拟这个方法./******************************************** * * 函数名：StringBuilder * 作用：构造PHP下的StringBuilder类 * **********************************...

PHP模拟asp.net的StringBuilder类实现方法_php技巧

PHP模拟asp.net的StringBuilder类实现方法

asp.net下利用js实现返回上一页的实现方法小集_javascript技巧【图】

方法一：在asp.net的aspx里面的源代码中浅析：这个是用了HTML控件，通过一个onclick的事件，调用了javascript中的一个方法就可以了。这个是最简单的了，也同样适用于静态页面,ASP页面等。方法二: 利用Reponse.write 如果你对ASP有一定的了解，那么对Response.write这个东东就不会陌生了，方法一是直接有HTML页面中实现，则这个则是在后台环境中实现（这个说法好像不是很规范，呵呵) 代码如下: Response.write("history.go(-2)...

asp.net下利用js实现返回上一页的实现方法小集

方法一：在asp.net的aspx里面的源代码中 <input type="button onclick="javascript:window.history.go(-1);"value="返回上一页"> 浅析：这个是用了HTML控件，通过一个onclick的事件，调用了javascript中的一个方法就可以了。这个是最简单的了，也同样适用于静态页面,ASP页面等。方法二: 利用Reponse.write 如果你对ASP有一定的了解，那么对Response.write这个东东就不会陌生了，方法一是直接有HTML页面中实现，则这个则是在后台环...

探究ASP.NET Core Middleware实现方法【图】

概念 ASP.NET Core Middleware是在应用程序处理管道pipeline中用于处理请求和操作响应的组件。每个组件：在pipeline中判断是否将请求传递给下一个组件在处理管道的下个组件执行之前和之后执行一些工作， HttpContxt对象能跨域请求、响应的执行周期特性和行为 ASP.NET Core处理管道由一系列请求委托组成，一环接一环的被调用，下面给出自己绘制的Middleware pipeline流程图：从上图可以看出，请求自进入处理管道，经历了四个中间...

ASP.NET - 技术教程分类

ASP.NET 教程 ASP.NET 简介 Razor 语法 MVC 应用程序 MVC 布局 MVC 控制器 MVC 数据库 MVC 模型 MVC 参考手册 WebForms 控件 asp.net 全部

ASP.NET - 最热教程

ASP.NET Core MVC 中实现中英文切换 ASP.NET Core WebAPI实现本地化（单资源...C#精髓 GridView72大绝技学习gridview...c# static的全部用法收集整理 ASP.NET之MVC框架及搭建教程(推荐)_实用...彻底解决Asp.netCore WebApi 3.1 跨域时...教你Asp.net下使用mysql数据库的步骤 datatable行转列示例分享 ADO与ADO.NET的区别与介绍 C#数据导入/导出Excel文件及winForm导出...

首页 / ASP.NET / asp.net 抓取网页源码三种实现方法

asp.net 抓取网页源码三种实现方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【asp.net 抓取网页源码三种实现方法】教程文章相关的互联网学习教程文章

ASP.NET - 技术教程分类

ASP.NET - 最新教程

ASP.NET - 最热教程