首页 / ASP / Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2503字，纯文字阅读大概需要4分钟。

内容图文

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容，并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理，并过滤需要的内容

示例源码：

<%
 Dim xmlUrl,http,strHTML,strBody
 xmlUrl = Request.QueryString("u")

 REM 异步读取XML源
 Set http = server.CreateObject("Microsoft.XMLHTTP") 
 http.Open "POST",xmlUrl,false
 http.setrequestheader "User-Agent", "Mozilla/4.0"
 http.setrequestheader "Connection", "Keep-Alive"
 http.setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
 http.Send()

 strHTML = BytesToBstr(http.ResponseBody)
 set http = nothing

 REM 抓取主要内容
 strBody = GetBody(strHTML,"<div id=""Div_newsContentc"" class=""cnt"">","</div>",0,0)
 strBody =Replace(strBody,"（本文首发于","")
 strBody =Replace(strBody,"财富动力网</a>，转载请注明出处。）","")
 strBody =Replace(strBody,"本文首发于，转载请注明出处。）","")
 strBody =Replace(strBody,"财富动力网</a>:http://www.927953.com","")
 strBody =Replace(strBody,"本文首发于","") 
  
 Response.Write RegRemoveHref(strBody)

REM 获取对应网址响应的HTML
Function BytesToBstr(body)
    dim objstream
    set objstream = Server.CreateObject("adodb.stream")
    objstream.Type = 1
    objstream.Mode =3
    objstream.Open
    objstream.Write body
    objstream.Position = 0
    objstream.Type = 2
    objstream.Charset = "UTF-8"

    ‘转换原来默认的UTF-8编码转换成GB2312编码，否则直接用
    ‘XMLHTTP调用有中文字符的网页得到的将是乱码
    BytesToBstr = objstream.ReadText
    objstream.Close
    set objstream = nothing
End Function


REM 使用正则表达式，抓取之内标记的内容
Function GetBody(ConStr,StartStr,OverStr,IncluL,IncluR)
   If ConStr="$False$" or ConStr="" or IsNull(ConStr)=True Or StartStr="" or IsNull(StartStr)=True Or OverStr="" or IsNull(OverStr)=True Then
      GetBody="$False$"
      Exit Function
   End If
   Dim ConStrTemp
   Dim Start,Over
   ConStrTemp=Lcase(ConStr)
   StartStr=Lcase(StartStr)
   OverStr=Lcase(OverStr)
   Start = InStrB(1, ConStrTemp, StartStr, vbBinaryCompare)
   If Start<=0 then
      GetBody="$False$"
      Exit Function
   Else
      If IncluL=False Then
         Start=Start+LenB(StartStr)
      End If
   End If
   Over=InStrB(Start,ConStrTemp,OverStr,vbBinaryCompare)
   If Over<=0 Or Over<=Start then
      GetBody="$False$"
      Exit Function
   Else
      If IncluR=True Then
         Over=Over+LenB(OverStr)
      End If
   End If
   GetBody=MidB(ConStr,Start,Over-Start)
End Function

REM 过滤a超链接
Function RegRemoveHref(HTMLstr) 
    Set ra = New RegExp 
    ra.IgnoreCase = True 
    ra.Global = True 
    ra.Pattern = "<a[^>]+>(.+?)<\/a>"
     
    RegRemoveHref = Replace(ra.replace(HTMLstr,"$1"),"href=""http://www.927953.com""","") 
END Function
%>

效果图如下：

原文：http://blog.csdn.net/yimiyuangguang/article/details/25759149

内容总结

以上是互联网集市为您收集整理的Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容全部内容，希望文章能够帮你解决Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1305832.html

来源：【匿名】

【下一篇】ASP知识讲座四

更多 ►

【Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容】教程文章相关的互联网学习教程文章

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容【图】

Asp 使用 Microsoft.XMLHTTP 抓取网页内容，并过滤需要的内容Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理，并过滤需要的内容示例源码：<%Dim xmlUrl,http,strHTML,strBodyxmlUrl = Request.QueryString("u")REM 异步读取XML源Set http = server.CreateObject("Microsoft.XMLHTTP") http.Open "POST",xmlUrl,falsehttp.setrequestheader "User-Agent", "Mozilla/4.0"http.setrequestheader "Connection", "Keep-Alive"http....

ASP教程:gb2312和utf-8乱码问题解决

文章为转载：https://www.xp.cn/b.php/31663.html尊重作者版权今天做网站的时候，客户要一个博客，于是就利用了本博客所用的程序pjblog。经常做网站的人都知道，在同一个站点里使用不同编码的页面会产生乱码，比较常见的就是gb2312和Utf-8，比如我刚做的网站主站用的gb2312，博客用了utf-8，这样在访问时就出现乱码，以前给百货大楼的网站加一个调查问卷系统，就遇到了这个问题，当时捣鼓了很久才搞定。没想到今天又遇到这个，很欣...

asp 中文乱码问题解决方法

不管什么语言乱码问题都存在在asp中解决乱码方法有以下几种：如果页面显示正常，而从数据中获取的数据为乱码 1：UTF-8编码的话：在ASP脚本顶部加入 <%@Language="vbscript" Codepage="65001"%> 以及再在<head>区域中加入 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" > -----------------------------------------------------------------------------2：gb2312编码的话：在ASP脚本顶部加入 <%@Language...

Asp.net中的页面乱码的问题

1.＜globalization requestEncoding="gb2312" responseEncoding="gb2312" /> 或者＜META http-equiv="content-type" content="text/html; charset=gb2312"> 2.下载文件时指定文件名，中文的文件名出现了乱码？ Response.AddHeader("Content-Disposition", "attachment; filename="+HttpUtility.UrlEncoding(filename.ToString ())); 3.如何识别字符串中是否包含韩文 http://search.csdn.net/Expert/topic/2456/2456407.xml?temp=....

Asp中使用JQuery的AJAX提交中文乱码解决方法

客户端页:client.html代码如下: <script> //jquery的post $.post ( server.asp, { Act:DoSubmit, UserName:escape(脚本之家),//进行编码 WebSite:www.gxlsystem.com }, function(data) { alert(unescape(data));//对返回数据进行解码 } ); </script>服务器端页:server.asp代码如下: < % Response.Charset="g...

ASP UTF-8页面乱码+GB2312转UTF-8 +生成UTF-8格式的文件(编码)第1/2页

最好的方法：先说一下基本的东西： <%@ codepage=65001%>UTF-8 <%@ codepage=936%>简体中文 <%@ codepage=950%>繁体中文 <%@ codepage=437 %>美国/加拿大英语 <%@ codepage=932 %>日文 <%@ codepage=949 %>韩文 <%@ codepage=866 %>俄文 codepage指定了IIS按什么编码读取传递过来的串串（表单提交，地址栏传递等）。出乱码的原因也就是网站要整合的时候模块编码不相同引起的。就像我的博客相同，整合的时候都会出这个问题，因为...

asp中utf8不会出现乱码的写法

代码如下:<%@ CODEPAGE=65001 %><% Response.CodePage=65001%><% Response.Charset="UTF-8" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>Untitled Document</title></head> <body> 内容</body></html>

asp 中文乱码问题解决方法

不管什么语言乱码问题都存在在asp中解决乱码方法有以下几种：如果页面显示正常，而从数据中获取的数据为乱码 UTF-8编码的话：在ASP脚本顶部加入代码如下:<%@Language="vbscript" Codepage="65001"%> 以及再在<head>区域中加入代码如下:<meta http-equiv="Content-Type" content="text/html; charset=utf-8" > gb2312编码的话：在ASP脚本顶部加入代码如下:<%@Language="vbscript" Codepage="936"%> 以及再在<head>区域中加...

ASP中Utf-8与Gb2312编码转换乱码问题的解决方法页面编码声明

出现这样的问题是当你浏览UTF-8编码的时候，服务器默认用UTF-8的引擎来输出html，当你用再浏览GB2312的页面时，它还是用UTF-8来输出本应是GB2312编码的页面所以会乱码。为了这个问题烦了我一个早上，终于的蓝色理想上得到解决。首先让我们来了解一下Session对象提供了四个属性。 1.CodePage 读/写。整型。定义用于在浏览器中显示页内容的代码页（Code Page）。代码页是字符集的数字值，不同的语言和场所可能使用不同的代码页。例...

ASP同一站点下gb2312和utf-8页面传递参数乱码的终极解决方法

①.页面文件使用正确的编码，gb2312使用ANSI，utf-8使用utf-8； ②.ASP代码中设置正确的CODEPAGE，gb2312使用936，utf-8使用65001； ③.HTML代码中设置正确的charset，gb2312使用gb2312，utf-8使用utf-8； ④.将传递的参数值使用js的escape函数进行编码；示例代码 t1.asp(ANSI编码)：代码如下:<%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> <%Session.CodePage=936%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//E...

网站开发防止中文乱码需要了解的codepage的重要性小结【图】

相关的题外话：一、操作系统window系统内部都是unicode的。文件夹名，文件名等都是unicode的，任何语言系统下都能正常显示。二、输入法：微软拼音输出的是Unicode的，智能ABC输出是简体中文的（所以智能ABC在非简体中文系统根本不能用，只能打英文）。三、网页的textarea网页的textarea是用unicode显示的。所以往里打什么字都能显示。而一些flash做的输入框就不行了。四、Access2000access里面保存的数据是unicode的，在任何语...

asp MYSQL出现问号乱码的解决方法

这样的问题是因为数据库字符集,表字符集,字段字符集都设为：gbk_chinese_ci 注意数据库连接串里面的 Stmt=Set Names 'GBK' ，一定要有这一句。下面是asp链接mysql的代码。请注意，后面有个GBK。这样就是指定链接的编码类型。根据你使用的数据库编码类型。修改成你自己的。 ConnectionString ="Driver={MySQL ODBC 3.51 Driver};Server=myserver;Database=mysql;User=myuser;password=mypassword;Option=3;Stmt=Set Names 'GB...

utf-8 网页不显示+utf-8网页乱码的通用解决方法

在windows操作系统上使用IE作为浏览器时。常常会发生这样的问题：在浏览使用UTF-8编码的网页时，浏览器无法自动侦测（即没有设定“自动选择”编码格式时）该页面所用的编码。即使网页已经声明过编码格式： <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 由此造成某些含有中文UTF-8编码的页面产生空白输出。如果使用的是Mozilla、Mozilla 浏览器、Sarafi的浏览器这不会造成这个问题。这是由于IE解析网页...

ajax XMLHTTP Post Form时的表单乱码综合解决

Part I Post中文内容先看看E文的表单是怎么提交的：代码如下:<SCRIPT language="JavaScript"> strA = "submit1=Submit&text1=scsdfsd"; var oReq = new ActiveXObject("MSXML2.XMLHTTP"); oReq.open("POST","http://ServerName/VDir/TstResult.asp",false); oReq.setRequestHeader("Content-Length",strA.length); oReq.setRequestHeader("CONTENT-TYPE","application/x-www-form-urlencoded"); oReq.send(strA); ...

asp UTF-8 乱码问题的解决方法小结

这个是网页编码的问题。中文一般采用的是gb2312这样的话显示中文基本上不会出现乱码。但是有时候我们用的是一种国际上通用的utf-8格式。如果utf-8格式人不是很了解的话是容易出现乱码的。有许多朋友问过我,为什么在ASP里指定了codepage为65001还经常显示乱码.才子在这里将这个问题详细解释一下,以免很多朋友再走弯路,甚至排斥UTF-8. asp网页utf8乱码如果你还不知道UTF-8是什么东东,那才子建议你先去搜索一下UTF-8的相关资料吧. UT...

ASP - 技术教程分类

ASP 教程 ASP 简介 ASP 安装 ASP 语法 ASP 变量 ASP 程序 ASP 表单 ASP Cookies ASP Session ASP Application ASP #include ASP Global.asa ASP 发送电子邮件 ASP Response ASP Request ASP Application ASP Session ASP Server ASP Error ASP FileSystem ASP Drive ASP File ASP Folder ASP Dictionary ASP ADO ASP Content Rotator AJAX 简介 AJAX ASP AJAX 数据库 ASP 快速参考 ASP 总结 ASP 实例 asp 全部

ASP - 最热教程

查看ASP详细错误提示信息的图文设置方法 asp实现本周的一周时间列表的代码 asp取得数组中的最大值的方法 ASP实现URL编码 asp中把数据导出为excel的2种方法 ASP模拟POST请求异步提交数据的方法 asp 获取access系统表，查询等操作代码 asp实现二进制字符串转换为Unicode字符...asp php jsp的区别有哪些 ASP常用源代码的总结（下）

首页 / ASP / Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容

内容导读

内容图文

Asp 使用 Microsoft.XMLHTTP 抓取网页内容，并过滤需要的内容

内容总结

内容备注

内容手机端

【Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码)，并过滤需要的内容】教程文章相关的互联网学习教程文章

ASP - 技术教程分类

ASP - 最新教程

ASP - 最热教程