【一个防止被采集的方法】教程文章相关的互联网学习教程文章

asp代理采集的核心函数代码

Function ProxyPage(url) Set Retrieval = CreateObject("MSXML2.ServerXMLHTTP.5.0") With Retrieval .SetProxy 2 , "255.0.0.0:80" '代理ip:代理端口 .Open "Get", url, False, "", "" .setRequestHeader "Referer","http://www.gxlsystem.com/" '伪造referer .Send ProxyPage = BytesToBstr(.ResponseBody) End With Set Retrieval = Nothing End Function 附BytesToBstr过程,你采集的时候可以定义网页是utf-8还是gb2312,utf=...

简单的asp采集代码教程

采集开始 第一步是分析要采集的页面。  使用浏览器打开要采集的页面(如:http://sports.sina.com.cn/k/2008-09-15/04593948756.shtml,你可以其他页面),打开后,点击右键,查源文件。 第二步,找到要采集的内容所在位置。 假如我要采集这个页面上的标题和内容所在的位置: 标题在<h1 id="artibodyTitle" style="color:#03005C;">和</h1>之间 内容在<!-- 正文内容 begin -->和<!-- 正文内容 end -->之间 注意一下所在位置的唯...

vbs或asp采集文章时网页编码问题

'/*========================================================================= ' * Intro 研究网页编码很长时间了,因为最近要设计一个友情链接检测的VBS脚本,而与你链接的人的页面很可能是各种编码,以前采取的方法是:如果用GB2312查不到再用UTF-8查,再找不到证明对方没有给你做链接虽然不是100%正确,但也差不多了,这两种编码用的人比较多,偶然间在收藏夹里的一个地址看到的一个思路,终于可以在采集文章时自动...

雨哲防采集策略之列表篇

在一般的链接地址形式如: 代码如下:1、<a class="链接样式" href="链接地址" title="链接说明" target="_blank">文章标题</a> 2、<a class='链接样式' href='链接地址' title='链接说明' target='_blank'>文章标题</a> 大家注意看上面两行代码,有一个区别就是第一个中间使用的是双引号,第二个使用的是单引号。一般来说,如果在文章列表页面都使用双引号或者使用单引号,很容易让采集者找到文章路径(开始代码:href...

雨哲浅谈关于防采集而不影响收录内容篇

让站长最头痛的事,除了程序和服务器安全外,可能就要算内容被采集了。当然,现在网络本身就是资源共享,我这里不谈采集的对错,只是就防采集说说个人看法。 一、如何分辨搜索爬虫 以前,在网上看到过关于用asp代码来捕捉搜索爬虫的代码,通过代码把爬虫的访问记录记录到文件。就此代码(原作者未知)我作了修改,加入程序中防采集。现做成函数,直接在页面中调用。 代码如下: Function CheckSearchRobots(SearchRobotsA...

asp采集抓取网上房产信息的代码

代码如下:<%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> <!-- #include file="conn.asp" --> <!-- #include file="inc/function.asp" --> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.gxlsystem.com"'新闻网址 getcont=ReadXml(url,"gb2312","<table class=k2 border=""0""","</table>") getcont=RegexHtml(getcont) dim KeyId,NewsClass,City,Position,HouseType,Level,Area,Price,Demostra dim Co...

独孤剑写的马克斯迅雷片库采集插件1.4 官方最新版提供下载了

嘟酷影视----马克斯迅雷片库采集插件1.4 作者:独孤剑 QQ:348885333 Email:www.gxlsystem.com 我的电影站:http://film.duku123.com 我的小站:http://www.gxlsystem.com 欢迎大家与我交流技术,可能的话请在贵站给我加个友情连接 插件使用说明如下: 加载该插件使用方法如下: 打开后台目录下的admin_index.asp找到如下代码 sub admin_left() REM 管理栏目设置 dim menu(4,10) menu(0,0)="信息及常规管理" menu(0,1)="<a target=m...

[asp]阿里西西的alexa采集效果代码

我想这个系统现在在网上或源码站几乎是没有可用的程序。 提供下载的都是以前的老版本,ALEXA官方在他们的页面做了混淆代码防采集后,那些以前的ALEXA排名查询系统都已经无法再使用了。 网上除了一些知名(有钱的主)能提供(通过收费接口)的排名查询和我看到的webmasterhome.cn免费接口的查询功能系统外,个人站长基本没几个再能提供ALEXA排名查询服务。 开源发布的这个版本经过我一段时间的使用和完善,已经做到无错,速度...

GetPaing 函数之asp采集函数中用到的获取分页的代码

'================================================== '函数名:GetPaing '作 用:获取分页 '================================================== Function GetPaing(Byval ConStr,StartStr,OverStr,IncluL,IncluR) If ConStr="$False$" or ConStr="" Or StartStr="" Or OverStr="" or IsNull(ConStr)=True or IsNull(StartStr)=True Or IsNull(OverStr)=True Then GetPaing="$False$" Exit Function End If Dim Start,Ov...

asp通用采集函数冗余版可以保存文件到本地

<% '名称:asp通用采集函数冗余版,要精品版的有心人自己改 '作者:柳永法 '日期:2007-6-23 Function getHTTPPage(Path) t = GetBody(Path) getHTTPPage = BytesToBstr(t, "GB2312") End Function Function GetBody(url) On Error Resume Next Set xmlhttp = CreateObject("Microsoft.XMLHTTP") With xmlhttp .Open "Get", url, False, "", "" .Send .waitForResponse 1000 ...

asp 采集实战代码

最近实在是太流行采集了,本人是不喜欢采集的,但对采集的原理我却很有兴趣进行研究,拿到了网上采集常用函数,对其进行了一番研究,并实战,结果成功,撇开效率问题,采集原理并不复杂,大家可以在搜索吧输入“采集”查看其原理。下面是一个采集的例子: 代码如下:<%@LANGUAGE="VBSCRIPT" CODEPAGE="65001"%> <% Response.CodePage=65001%> <% Response.Charset="UTF-8" %> <%Server.Scripttimeout=9999999 response.expires =...

解决采集时出现msxml3.dll 错误的方法

采集时出现: msxml3.dll 错误 '800c0005' 系统未找到指定的资源。 /Admin/Item/Admin_ItemFunction.asp,行166 我查了资料: 在运用xmlhttp组件编写程序中,会碰到 "msxml3.dll 错误 '800c0005' 系统未找到指定的资源。" 这种错误,网上对这种错误的产生原因有很多钟解释,大体说是因为防火墙或UDP站口权限造成了,也说了相应的解决办法。其它有时候也未必。其实错误的描述中就说出了主要的原因 "系统未找到指定的资源" 。这种...

asp实现的7xi音乐网的采集源代码

共5个文件: 2个是配置文件: 配置文件: cfg.txt '---保存检测ID信息的,第一次采集时设为1,从小到大检测 cfg.asp '---ASP的配置信息,内容如下: 代码如下:<% ''' '''╔=======================================╗ '''┆ ┆ '''┆ @系统: 7xi音乐采集系统 Version 2.0 ┆ '''┆ @模块: 配置文件 ┆ '''┆ @创建: 2006/07/24 ┆ ''...

用asp+xmlhttp编写web采集程序

web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的。本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp对象和正则表达式对象。xmlhttp对象是时下风头正劲的Ajax的主角;而学好了正则表达式,你再也不用为处理复杂的字符串犯愁。 在编写和调试正则表达式时,RegEx 这个小工具非常有用。 目录 ...

ASP下实现自动采集程序及入库的代码

最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单. 原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中。其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的。与其单纯...