首页 / 爬虫 / 学习爬虫前需要知道的知识

学习爬虫前需要知道的知识

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了学习爬虫前需要知道的知识，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3846字，纯文字阅读大概需要6分钟。

内容图文

爬虫定义
网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做

爬虫的分类

通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

爬虫的流程
学习爬虫前需要知道的知识 - 文章图片
1、向起始url发送请求，并获取响应
2、对响应进行提取
3、如果提取url，则继续发送请求获取响应
4、如果提取数据，则将数据进行保存

robots协议
Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是道德层面上的约束例如：淘宝的robots协议

HTTP 与 HTTPS 的概念

HTTP
- 超文本传输协议
- 默认端口号:80
HTTPS
- HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议
- 默认端口号：443

HTTP 请求流程
学习爬虫前需要知道的知识 - 文章图片
1、浏览器通过域名解析服务器（DNS）获取IP地址
2、浏览器先向IP发起请求，并获取相应
3、在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
4、浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
5、从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

URL 地址格式
格式说明:
scheme://host[:port]/path/…/[?query-string][#anchor]

scheme：协议（例如：http, https, ftp）
host：服务器的IP地址或者域名
port：服务器的端口（如果是走协议默认端口，缺省端口80）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定锚点位置）

HTTP 请求
请求格式
学习爬虫前需要知道的知识 - 文章图片

请求方式
根据HTTP标准，HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法： GET, POST 和 HEAD方法。

HTTP1.1新增了五种请求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

请求方式	描述
GET	请求指定的页面信息，并返回实体主体。
HEAD	类似于get请求，只不过返回的响应中没有具体的内容，用于获取报头。
POST	向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
PUT	从客户端向服务器传送的数据取代指定的文档的内容。
DELETE	请求服务器删除指定的页面。
CONNECT	HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
OPTIONS	允许客户端查看服务器的性能。
TRACE	回显服务器收到的请求，主要用于测试或诊断。

常见请求头

请求头	作用
Cookie	Cookie
User-Agent	浏览器名称
Referer	页面跳转处
Host	主机和端口号
Connection	链接类型
Upgrade-Insecure-Requests	升级为 HTTPS 请求
Accept	传输文件类型
Accept-Encoding	文件编解码格式
x-requested-with : XMLHttpRequest	ajax 请求

HTTP 响应
响应格式
HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行（回车符 + 换行符）和响应正文。
学习爬虫前需要知道的知识 - 文章图片 响应头

请求头	作用
Location	这个头配合302状态码使用，告诉用户端找谁。
Set-Cookie	设置和页面关联的Cookie
Content-Type	服务器通过这个头，回送数据的类型
Server	服务器通过这个头，告诉浏览器服务器的类型
Content-Length	服务器通过这个头，告诉浏览器回送数据的长度。
Connection	服务器通过这个头，响应完是保持链接还是关闭链接。

HTTP 状态码
当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。

HTTP状态码的英文为HTTP Status Code。

HTTP 状态码由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。HTTP 状态码共分为5种类型

分类	分类描述
1**	信息，服务器收到请求，需要请求者继续执行操作
2**	成功，操作被成功接收并处理
3**	重定向，需要进一步的操作以完成请求
4**	客户端错误，请求包含语法错误或无法完成请求
5**	服务器错误，服务器在处理请求的过程中发生了错误

常见的HTTP状态码：
- 200 - 请求成功
- 301 - 资源（网页等）被永久转移到其它URL
- 404 - 请求的资源（网页等）不存在
- 500 - 内部服务器错误
  HTTPS 作用
  在传输过程中对数据进行加密，防止中间路由器、交换机等中间的路由设备对数据进行篡改
  HTTP 与 HTTPS 优缺点
  HTTP 因为不需要对数据进行加密所以性能更高，但是安全性差。

HTTPS 虽然安全性高，但是因为浏览器和服务器端需要对数据进行加解密，所以占用服务器资源。
当前形式
注意：目前HTTPS是未来主流，微信小程序，iOS客户端，android客户端的接口提供都需要 HTTPS 接口支持。

内容总结

以上是互联网集市为您收集整理的学习爬虫前需要知道的知识全部内容，希望文章能够帮你解决学习爬虫前需要知道的知识所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1041274.html

来源：【匿名】

【上一篇】Selenium爬虫小案例【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【学习爬虫前需要知道的知识】教程文章相关的互联网学习教程文章

【Python学习】爬虫源码【代码】

1、在巨人的肩膀上，结合网上的资源，梳理出来的。2、其中应用了几个常用的包，requests、re等，3、注意创建多级文件夹要用--makesdir，创建单级文件用--mkdir 1# 导入相应的包 2# 请求网页 3import requests4# 正则解析网页 5import re6# 告诉服务，自己的身份， 7import time8 9import os10 11# 函数请求的头部信息 12 headers = {13"user-agent": ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML...

python学习之爬虫：安装requests模块【图】

终端输入命令：pip install requests 如果报错：p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #c33720; background-color: #ffffff } span.s1 { }Installing collected packages: idna, urllib3, certifi, chardet, requestsException:Traceback (most recent call last): File "/Library/Pyt...

python学习之爬虫(一) ——————爬取网易云歌词【代码】【图】

接触python也有一段时间了，一提到python，可能大部分pythoner都会想到爬虫，没错，今天我们的话题就是爬虫！作为一个小学生，关于爬虫其实本人也只是略懂，怀着”Done is better than perfect”的态度硬着头皮开始了这篇文章的撰写！好了，废话不多说！　　先说一下今天我们的目的，作为一个音痴但不影响我对于音乐的执着，所以今天我们爬取的是网易云音乐，我们将会通过代码爬取歌词并写入到本地。　　作为新手，我很本能就打开页...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

最全Python培训课程，基础班+高级就业班+课件(数据分析、深度学习、爬虫、人工智能等) 精品课程

最新版Python全套培训课程视频，绝对零基础到Python大牛。包括：零基础得python基础班，高阶进阶就业篇完整版(含：数据分析、机器学习、网络爬虫、数据挖掘、深度学习、人工智能等)课程共108.9G。本套课程价值2万元以上。文章底部附加全套课程下载地址，由于文件较大，保存时可选择分卷保存。全套课程文件目录：Python全套一、python基础班 1-1 Linux基础01-课程简介 02-操作系统简介 03-linux命令简介 04-目录相关命令 05-文件相...

分享！该怎么学习爬虫python【图】

学电脑语言，首先要了解它的底层实现机制和程序处理的过程，即它的设计思路。当然，一开始接触一门语言，并不需要对它进行深入的研究，但是也要在心中有一个Python的知识框架，在接下来的学习过程中，不断地填充和完善它，就像建造一座建筑，除了使用极光爬虫代理，还要特别注意以下几点。 1.网页基础知识: 基础HTML语言知识(了解href等大学计算机级内容) 理解网站分包概念(POSTGET) 稍微了解一下js知识，用来理解动态网页(当然，如...

《假期Python学习》爬虫基础知识【代码】【图】

1.爬虫可分为 ——通用爬虫（搜索引擎） ——聚焦爬虫（特定网页） ——增量式爬虫（只爬更新的内容）等本文主要总结通用网络和聚焦网络爬虫的知识。 2.爬虫的组成有 ——控制节点 ——爬虫节点 ——资源库个人简单理解就是 ——控制节点相当CPU，根据url分配线程 ——爬虫节点相当于CPU负责进行具体的爬取数据 3.爬虫实现原理4.实际爬虫举例疫情相关数据爬取 import hashlib,json,random,requests,urllib.parse import urllib....

从学习爬虫开始，零基础高效入门Python3【图】

在我们现在的生活中，大数据这个词出现的频率越来越高，数据也越来越影响我们生活中的方方面面，同时，在工作中数据也在影响着我们的创造和决策，那么，我们应该如何将产生的数据发挥它最大的价值，以帮助我们更好的工作和生活呢？首先先让我们应用爬虫进行数据分析后能干些什么吧？淘宝、京东：抓取商品、销售量和商品评论，对各种商品和用户进行详细分析，了解商品真实情况；豆瓣、知乎：抓取优质影评及高质量回答，筛选高质...

python学习之爬虫二【代码】

1.requests模块中部分函数的介绍正则表达式的书写，同步处理，异步处理，带参数的处理import requests # 乌龙事件，没有来联网就去运行整个程序，肯定会报错啊 # 没有联网，该台电脑怎么向目的主机发送请求呢 # from urllib.parse import urlencode # # 在requests模块还为出现前使用的方法 # url=https://www.baidu.com/s?+urlencode({"wd":"牛超"}) # headers = { # user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64...

Python 3 Anaconda 下爬虫学习与爬虫实践（2）

下面研究如何让<html>内容更加“友好”的显示之前略微接触的prettify能为显示增加换行符，提高可阅读性，用法如下：import requests from bs4 import BeautifulSoupr=requests.get("https://www.baidu.com/") r.encoding=r.apparent_encoding demo=r.text soup=BeautifulSoup(demo,"html.parser") print(soup.prettify()) 同样，它也可以为其中的个别标签做专门的处理，比如对a标签进行处理代码如下：import requests from bs4 i...

每天30分钟一起来学习爬虫——day16（数据存储之 MySQL 简单操作）【代码】【图】

MySQL什么是MySQLMySQL 的一些特性安装Mysqlwindows 安装数据库的启动基础操作数据库操作表操作数据操作查询操作什么是MySQL MySQL是一个关系型数据库管理系统，在 WEB 应用方面，MySQL是一个好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件之一。 MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。 My...

学习爬虫需要哪些知识储备？【图】

学一门计算机语言，首先要了解它的底层实现机制和程序处理过程，即它的设计思想。如果你刚开始接触某一种语言，你当然不需要对它进行深入的研究，但是你也应该有一个Python的知识框架，在接下来的学习中，你应该不断地充实和完善这一框架，就像建造一座建筑一样，除了用Python做代理外，还需要特别注意以下几点。 1.基本网页：基本的HTML语言知识(了解href等大学计算机课程) 学习网站(POSTGET)分包概念学习一些js的知识，以便理解...