首页 / 爬虫 / 详解4种类型的爬虫技术

详解4种类型的爬虫技术

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了详解4种类型的爬虫技术，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含9770字，纯文字阅读大概需要14分钟。

内容图文

聚焦网络爬虫是“面向特定主题需求”的一种爬虫程序，而通用网络爬虫则是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
增量抓取意即针对某个站点的数据进行抓取，当网站的新增数据或者该站点的数据发生变化后，自动地抓取它新增的或者变化后的数据。
Web页面按存在方式可以分为表层网页（surface Web）和深层网页（deep Web，也称invisible Web pages或hidden Web）。

表层网页是指传统搜索引擎可以索引的页面，即以超链接可以到达的静态网页为主来构成的Web页面。
深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

01 聚焦爬虫技术
聚焦网络爬虫（focused crawler）也就是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块，其爬行策略实现要点就是评价页面内容以及链接的重要性。
基于链接评价的爬行策略，主要是以Web页面作为半结构化文档，其中拥有很多结构信息可用于评价链接重要性。还有一个是利用Web结构来评价链接价值的方法，也就是HITS法，其通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。
而基于内容评价的爬行策略，主要是将与文本相似的计算法加以应用，提出Fish-Search算法，把用户输入查询词当作主题，在算法的进一步改进下，通过Shark-Search算法就能利用空间向量模型来计算页面和主题相关度大小。
面向主题爬虫，面向需求爬虫：会针对某种特定的内容去爬取信息，而且会保证信息和需求尽可能相关。一个简单的聚焦爬虫使用方法的示例如下所示。

【例1】一个简单的爬取图片的聚焦爬虫

import?urllib.request
????#?爬虫专用的包urllib，不同版本的Python需要下载不同的爬虫专用包
import?re
????#?正则用来规律爬取
keyname=""
????#?想要爬取的内容
key=urllib.request.quote(keyname)
????#?需要将你输入的keyname解码，从而让计算机读懂
for?i?in?range(0,5):???#?(0,5)数字可以自己设置，是淘宝某产品的页数
????url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180815&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i*44)
#?url后面加上你想爬取的网站名，然后你需要多开几个类似的网站以找到其规则
#?data是你爬取到的网站所有的内容要解码要读取内容
????pat='"pic_url":"//(.*?)"'
#?pat使用正则表达式从网页爬取图片
#?将你爬取到的内容放在一个列表里面
????print(picturelist)
????#?可以不打印，也可以打印下来看看
????for?j?in?range(0,len(picturelist)):
????????picture=picturelist[j]
????????pictureurl="http://"+picture
????????#?将列表里的内容遍历出来，并加上http://转到高清图片
????????file="E:/pycharm/vscode文件/图片/"+str(i)+str(j)+".jpg"
????????#?再把图片逐张编号，不然重复的名字将会被覆盖掉
????????urllib.request.urlretrieve(pictureurl,filename=file)
????????#?最后保存到文件夹

02 通用爬虫技术
通用爬虫技术（general purpose Web crawler）也就是全网爬虫。其实现过程如下。

第一，获取初始URL。初始URL地址可以由用户人为指定，也可以由用户指定的某个或某几个初始爬取网页决定。
第二，根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后，需要先爬取对应URL地址中的网页，接着将网页存储到原始数据库中，并且在爬取网页的同时，发现新的URL地址，并且将已爬取的URL地址存放到一个URL列表中，用于去重及判断爬取的进程。
第三，将新的URL放到URL队列中，在于第二步内获取下一个新的URL地址之后，会将新的URL地址放到URL队列中。
第四，从URL队列中读取新的URL，并依据新的URL爬取网页，同时从新的网页中获取新的URL并重复上述的爬取过程。
第五，满足爬虫系统设置的停止条件时，停止爬取。在编写爬虫的时候，一般会设置相应的停止条件。如果没有设置停止条件，爬虫便会一直爬取下去，一直到无法获取新的URL地址为止，若设置了停止条件，爬虫则会在停止条件满足时停止爬取。详情请参见图2-5中的右下子图。

通用爬虫技术的应用有着不同的爬取策略，其中的广度优先策略以及深度优先策略都是比较关键的，如深度优先策略的实施是依照深度从低到高的顺序来访问下一级网页链接。
关于通用爬虫使用方法的示例如下。

【例2】爬取京东商品信息

'''
爬取京东商品信息：
????请求url：https://www.jd.com/
????提取商品信息：
????????1.商品详情页
????????2.商品名称
????????3.商品价格
????????4.评价人数
????????5.商品商家
'''
from?selenium?import?webdriver????#?引入selenium中的webdriver
from?selenium.webdriver.common.keys?import?Keys
import?time

def?get_good(driver):
????try:

????????#?通过JS控制滚轮滑动获取所有商品信息
????????js_code?=?'''
????????????window.scrollTo(0,5000);
????????'''
????????driver.execute_script(js_code)??#?执行js代码

????????#?等待数据加载
????????time.sleep(2)

????????#?查找所有商品div
????????#?good_div?=?driver.find_element_by_id('J_goodsList')
????????good_list?=?driver.find_elements_by_class_name('gl-item')
????????n?=?1
????????for?good?in?good_list:
????????????#?根据属性选择器查找
????????????#?商品链接
????????????good_url?=?good.find_element_by_css_selector(
????????????????'.p-img?a').get_attribute('href')

????????????#?商品名称
????????????good_name?=?good.find_element_by_css_selector(
????????????????'.p-name?em').text.replace("\n",?"--")

????????????#?商品价格
????????????good_price?=?good.find_element_by_class_name(
????????????????'p-price').text.replace("\n",?":")

????????????#?评价人数
????????????good_commit?=?good.find_element_by_class_name(
????????????????'p-commit').text.replace("\n",?"?")

????????????good_content?=?f'''
????????????????????????商品链接:?{good_url}
????????????????????????商品名称:?{good_name}
????????????????????????商品价格:?{good_price}
????????????????????????评价人数:?{good_commit}
????????????????????????\n
????????????????????????'''
????????????print(good_content)
????????????with?open('jd.txt',?'a',?encoding='utf-8')?as?f:
????????????????f.write(good_content)

????????next_tag?=?driver.find_element_by_class_name('pn-next')
????????next_tag.click()

????????time.sleep(2)

????????#?递归调用函数
????????get_good(driver)

????????time.sleep(10)

????finally:
????????driver.close()


if?__name__?==?'__main__':

????good_name?=?input('请输入爬取商品信息:').strip()

????driver?=?webdriver.Chrome()
????driver.implicitly_wait(10)
????#?往京东主页发送请求
????driver.get('https://www.jd.com/')

????#?输入商品名称，并回车搜索
????input_tag?=?driver.find_element_by_id('key')
????input_tag.send_keys(good_name)
????input_tag.send_keys(Keys.ENTER)
????time.sleep(2)

????get_good(driver)

03 增量爬虫技术
某些网站会定时在原有网页数据的基础上更新一批数据。例如某电影网站会实时更新一批最近热门的电影，小说网站会根据作者创作的进度实时更新最新的章节数据等。在遇到类似的场景时，我们便可以采用增量式爬虫。
增量爬虫技术（incremental Web crawler）就是通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新后的新数据。
关于如何进行增量式的爬取工作，以下给出三种检测重复数据的思路：

在发送请求之前判断这个URL是否曾爬取过；
在解析内容后判断这部分内容是否曾爬取过；
写入存储介质时判断内容是否已存在于介质中。

第一种思路适合不断有新页面出现的网站，比如小说的新章节、每天的实时新闻等；
第二种思路则适合页面内容会定时更新的网站；
第三种思路则相当于最后一道防线。这样做可以最大限度地达到去重的目的。

不难发现，实现增量爬取的核心是去重。目前存在两种去重方法。

第一，对爬取过程中产生的URL进行存储，存储在Redis的set中。当下次进行数据爬取时，首先在存储URL的set中对即将发起的请求所对应的URL进行判断，如果存在则不进行请求，否则才进行请求。
第二，对爬取到的网页内容进行唯一标识的制定（数据指纹），然后将该唯一标识存储至Redis的set中。当下次爬取到网页数据的时候，在进行持久化存储之前，可以先判断该数据的唯一标识在Redis的set中是否存在，从而决定是否进行持久化存储。

关于增量爬虫的使用方法示例如下所示。

【例3】爬取4567tv网站中所有的电影详情数据

import?scrapy
from?scrapy.linkextractors?import?LinkExtractor
from?scrapy.spiders?import?CrawlSpider,?Rule
from?redis?import?Redis
from?incrementPro.items?import?IncrementproItem
class?MovieSpider(CrawlSpider):
????name?=?'movie'
????#?allowed_domains?=?['www.xxx.com']
????start_urls?=?['http://www.4567tv.tv/frim/index7-11.html']
????rules?=?(
????????Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'),?callback='parse_item',?follow=True),
????)
????#?创建Redis链接对象
????conn?=?Redis(host='127.0.0.1',?port=6379)
????def?parse_item(self,?response):
????????li_list?=?response.xpath('//li[@class="p1?m1"]')
????????for?li?in?li_list:
????????????#?获取详情页的url
????????????detail_url?=?'http://www.4567tv.tv'?+?li.xpath('./a/@href').extract_first()
????????????#?将详情页的url存入Redis的set中
????????????ex?=?self.conn.sadd('urls',?detail_url)
????????????if?ex?==?1:
????????????????print('该url没有被爬取过，可以进行数据的爬取')
????????????????yield?scrapy.Request(url=detail_url,?callback=self.parst_detail)
????????????else:
????????????????print('数据还没有更新，暂无新数据可爬取！')

????#?解析详情页中的电影名称和类型，进行持久化存储
????def?parst_detail(self,?response):
????????item?=?IncrementproItem()
????????item['name']?=?response.xpath('//dt[@class="name"]/text()').extract_first()
????????item['kind']?=?response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()
????????item['kind']?=?''.join(item['kind'])
????????yield?it

管道文件：

from?redis?import?Redis
class?IncrementproPipeline(object):
????conn?=?None
????def?open_spider(self,spider):
????????self.conn?=?Redis(host='127.0.0.1',port=6379)
????def?process_item(self,?item,?spider):
????????dic?=?{
????????????'name':item['name'],
????????????'kind':item['kind']
????????????}
????????print(dic)
????????self.conn.push('movieData',dic)????
????????#?如果push不进去，那么dic变成str(dic)或者改变redis版本???
????????pip?install?-U?redis==2.10.6
????????return?item

04 深层网络爬虫技术
在互联网中，网页按存在方式可以分为表层网页和深层网页两类。
所谓的表层网页，指的是不需要提交表单，使用静态的链接就能够到达的静态页面；而深层网页则隐藏在表单后面，不能通过静态链接直接获取，是需要提交一定的关键词后才能够获取到的页面，深层网络爬虫（deep Web crawler）最重要的部分即为表单填写部分。
在互联网中，深层网页的数量往往要比表层网页的数量多很多，故而，我们需要想办法爬取深层网页。
深层网络爬虫的基本构成：URL列表、LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型：

基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写）；
基于网页结构分析的表单填写（一般在领域知识有限的情况下使用，这种方式会根据网页结构进行分析，并自动地进行表单填写）。

内容总结

以上是互联网集市为您收集整理的详解4种类型的爬虫技术全部内容，希望文章能够帮你解决详解4种类型的爬虫技术所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1028382.html

来源：【匿名】

【上一篇】爬虫日记(24)：Scrapy 中设置随机 User-Agent 【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【详解4种类型的爬虫技术】教程文章相关的互联网学习教程文章

爬虫框架Scrapy之详解【图】

Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted[‘tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scrapy架构图(绿...

python requests库中的post详解，有这一篇可以做爬虫和接口就足够了【代码】【图】

上一篇文章，我们详细介绍了http请求的常用方法以及细节，大家可以点击：https://blog.51cto.com/u_13025170/2961690进行观看，这一篇文章让你对整个http请求有更详细的认识，两篇结合看，掌握自动化和爬虫不再是难事话不多说，我们直奔主题，上代码一、post请求及响应详解# -*- coding: utf-8 -*- #引入requests库 import requests#设置函数，抿成send_requests def send_requests():#请求地址url = ‘http://httpbin.org/post‘#...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

第十八节：Scrapy爬虫框架之settings文件详解【代码】

# -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://doc.scrapy.org/en/latest/topics/settings.html# https://doc.scrapy.org/en/latest/topics/downloader-middleware.html# https://doc.scrapy.org/en/latest/topics/spider-middlewa...

Python爬虫DNS如何解析缓存的方法详解

这篇文章主要介绍了Python爬虫DNS解析缓存方法,结合具体实例形式分析了Python使用socket模块解析DNS缓存的相关操作技巧与注意事项,需要的朋友可以参考下本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考，具体如下：前言：这是Python爬虫中DNS解析缓存模块中的核心代码，是去年的代码了，现在放出来有兴趣的可以看一下。一般一个域名的DNS解析时间在10~60毫秒之间，这看起来是微不足道，但是对于大型一点的爬虫而言...

php与python实现的线程池多线程爬虫功能实例详解

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

PHP网络爬虫之CURL详解

php的curl可以实现模拟http的各种请求，这也是php做网络爬虫的基础，也多用于接口api的调用。这个时候有人就要发问了：为什么你特么不用file_get_contents?curl的性能比它好，而且可以完成更多复杂的操作，不仅仅只是获取页面数据。下面先分别介绍一些常用的函数。curl_init 初始化一个curl对话curl_setopt 设置curl参数，即传输选项curl_exec 执行请求curl_close 关闭一个curl对话主要是上面四个curl_errno 返回最后一次错误码,ph...

nodeJs爬虫使用步骤详解

这次给大家带来nodeJs爬虫使用步骤详解，nodeJs爬虫使用的注意事项有哪些，下面就是实战案例，一起来看一下。背景最近打算把之前看过的nodeJs相关的内容在复习下，顺便写几个爬虫来打发无聊，在爬的过程中发现一些问题，记录下以便备忘。依赖用到的是在网上烂大街的cheerio库来处理爬取的内容，使用superagent处理请求，log4js来记录日志。日志配置话不多说，直接上代码：const log4js = require(log4js); log4js.configure({appen...

NodeJS爬虫详解【图】

一、爬虫流程我们最终的目标是实现爬取立马理财每日的销售额，并知道卖了哪些产品，每个产品又被哪些用户在什么时间点买的。首先，介绍下爬虫爬取的主要步骤：1. 结构分析我们要爬取页面的数据，第一步当然是要先分析清楚页面结构，要爬哪些页面，页面的结构是怎样的，需不需要登录；有没有ajax接口，返回什么样的数据等。2. 数据抓取分析清楚要爬取哪些页面和ajax，就要去抓取数据了。如今的网页的数据，大体分为同步页面和ajax接...

Node.js爬虫之网页请求模块详解

本文主要介绍了浅谈Node.js爬虫之网页请求模块，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧，希望能帮助到大家。本文介绍了Node.js爬虫之网页请求模块，分享给大家，具体如下：注：如您下载最新的nodegrass版本，由于部分方法已经更新，本文的例子已经不再适应，详细请查看开源地址中的例子。一、为什么我要写这样一个模块？源于笔者想使用Node.js写一个爬虫，虽然Node.js官方API提供的请求远程...

Node.js爬虫如何获取天气和每日问候详解【图】

安装依赖安装node.js,同时安装好依赖：npm install request --save // http请求库 npm install cheerio --save // 分析html工具 npm install express --save // nodejs web框架获取墨迹天气地址示例：东莞 tianqi.moji.com/weather/chi…广州 tianqi.moji.com/weather/chi…深圳 tianqi.moji.com/weather/chi…可打开墨迹天气网站找到女朋友对应城市修改url地址拼音即可。查看网页结构：下面开始提取网页天气信息：const request =...

详解50行代码，Node爬虫练手项目

First 项目地址：Crawler-for-Github-Trending 项目中基本每一句代码都写有注释(因为就这么几行)，适合对Node爬虫感兴趣的同学入入门。 Introduction 50 lines, minimalist node crawler for Trending. 一个50行的node爬虫，一个简单的 axios, express, cheerio 体验项目。 Usage 首先保证电脑已存在node环境，然后 1.拉取本项目 git clone https://github.com/ZY2071/Crawler-for-Github-Trending.git cd Crawler-for-Github-Tren...

详解Node使用Puppeteer完成一次复杂的爬虫【图】

本文介绍了详解Node使用Puppeteer完成一次复杂的爬虫，分享给大家，具体如下：架构图Puppeteer架构图Puppeteer 通过 devTools 与 browser 通信Browser 一个可以拥有多个页面的浏览器(chroium)实例Page 至少含有一个 Frame 的页面Frame 至少还有一个用于执行 javascript 的执行环境，也可以拓展多个执行环境前言最近想要入手一台台式机，笔记本的i5在打开网页和vsc的时候有明显卡顿的情况，因此打算配1台 i7 + GTX1070TI or GTX108...

详解nodejs爬虫程序解决gbk等中文编码问题

使用nodejs写了一个爬虫的demo，目的是提取网页的title部分。遇到最大的问题就是网页的编码与nodejs默认编码不一致造成的乱码问题。nodejs支持utf8, ucs2, ascii, binary, base64, hex等编码方式，但是对于汉语言来说编码主要分为三种，utf-8,gb2312,gbk。这里面gbk是完全兼容gb2312的，因此在处理编码的时候主要就分为utf-8以及gbk两大类。（这是在没有考虑到其他国家的编码情况，比如日本的Shift_JIS编码等，同时这里这个iconv-...

使用正则表达式实现网页爬虫的思路详解【图】

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。思路： 1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。（部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：） 2.使用URL与网页建立联系 3.获取输入流，用于读取网页中的内容 4.建立正则规则，因为这里我们是爬去网页中的邮箱信息，所以建立匹配邮箱的正则表达式：String regex="\w+@...

首页 / 爬虫 / 详解4种类型的爬虫技术

详解4种类型的爬虫技术

内容导读

内容图文

内容总结

内容备注

内容手机端

【详解4种类型的爬虫技术】教程文章相关的互联网学习教程文章

爬虫 - 相关标签

技术 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程