首页 / 爬虫 / 爬虫基础

爬虫基础

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫基础，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3727字，纯文字阅读大概需要6分钟。

内容图文

爬虫
首先要知道url是一个统一资源定位符，它的格式是协议名://资源名（在爬虫中常爬取的是HTTP和HTTPS协议，HTTP协议是超文本传输协议，用于在网络上传输超文本数据到本地浏览器的传送协议，而HTTPS是超文本传输安全协议，简言之就是HTTP的安全版，在HTTP下加入SSL层）。我们在向服务器发送请求的常用方法是get和post。我们在百度上搜索的内容会出现在url的wd=的后面，那么我们在登陆时提交的用户名和密码名就会暴露在url中，所以有了post请求，post请求的url不会包含参数，数据以表单的形式传输会包含在请求体中。get提交的请求数据最多只有1024个字节，但是post没有限制，所以如果文件大的话也会用post请求。一个网页包括HTML（超文本标记语言），css（层叠样式表，对网页的文字大小，颜色、元素间距排列等格式进行处理），JavaScript（脚本语言，在网页里面的交互和动画效果，如下载进度条，提示框等，通常以单独的文件形式加载后缀为.js，在HTML中通过script标签引入），HTML就相当于一个人的骨架，css就相当于皮肤，js就相当于肌肉。
这个就是爬虫的流程：爬虫基础 - 文章图片
爬虫就是获取网页并提取和保存信息的自动化程序。
1、发送请求：爬虫首先要做的就是获取网页，要向服务器发送一个请求首先要构造网站的url，如果是get请求的话我们需要在url中添加参数，如果网站有反爬措施，就需要在请求头中伪造user-agent
2、获取相应内容：我们从服务器返回的数据有时候可能是网页的源代码或者是一串json字符串，不过他们都是完整的响应，里面包括请求头请求体等内容，所以要获取我们想要的数据就需要根据服务器返回的内容制定不同的爬取策略和解析方式。
3、解析内容：我们最常用的方式就是通过正则表达式提取，是一个万能的方法，不过我们在构造正则表达式的可能会出错，而且网页的结构有一定的规则，所以我们还需要根据网页节点属性、CSS选择器或XPath获取网页信息。
4、保存数据：可以简单的保存为TXT或json文本，也可以保存到数据库。
我们需要用到python库中自带的rullib库
rullib库中：
request是最基本的http请求模块，用来模拟发送请求
error是异常处理模块，如果出现错误可以捕获这些异常
parse是工具模块，有很多url处理方法，拆分解析合并等
robotparser识别网站的robot.txt文件，判断哪些网站可以爬
1、urllib.request（构造请求）：提供了基本的构造HTTP请求的方法。比如爬虫基础 - 文章图片
urlopen来构造HTTP请求，返回值是一个HTTPRsponse对象，用read()方法来读取网页内容，返回结果是网页的字节流，用decode()解码成unicode之后就可以得到网页源代码了。urlopen的参数信息
首先data参数（字节类型，用urllib.parse的urlencode()可以把参数字典转换为字符串，再用bytes()函数将其转化为字节流）是可选的，如果要添加这个参数需要将其内容编码为字节流格式即bytes类型，而且如果传递了这个参数，请求方式将使用POST请。
timeout参数用于设置超时时间，单位：秒，如果请求超时还未得到响应则应抛出异常爬虫基础 - 文章图片
其他参数：
**2、urllib.request的高级类：urllib.request模块里面的BaseHandler类是所有其他Handler的父类，通俗易懂它就是一个处理器，处理登录验证、cookies、代理设置、重定向等
Handler的子类
3、urllib.error(异常处理)：request模块产生异常，便会抛出error模块中定义的异常，其中有两个子类URLError和HTTPError。
3.1、URLError是error异常模块的基类，由request模块产生的异常都可以通过捕获这个类来处理，只有一个reason属性，用来返回错误原因。
爬虫基础 - 文章图片
3.2、HTTPError：是URLError的子类，专门处理HTTP请求错误，比如认证请求失败，有三个属性：code:返回HTTP的状态码，如页面404不存在；reason：同父类，返回错误的原因；headers：返回请求头。
结果如下：
4urllib。parse（解析链接）：
定义了处理URL的标准接口，如实现URl各部分的抽取，合并以及链接转换
4.1urlparse（）实现URL的识别和分段爬虫基础 - 文章图片
输出结果ParseResult类型对象，分别是scheme（协议），netico(域名)、path（访问路径）、params(参数)，query(条件)，fragment（锚点），所以有一个标准的链接格式

4.2urlunparse：它接受一个可迭代对象，长度为6

4.3urljoin：可以完成链接的合并
爬虫基础 - 文章图片

4.4urlencode():将字典转化为get请求参数

4.5parse_qs()：和上见面那个相反是来分反序列化的，将get参数转换会字典格式

4.6parse.qsl()：将参数转化为元组组成的列表

5、robots协议

也称为爬虫协议或者机器人协议，来告诉爬虫和搜索引擎哪些可以爬哪些不能爬，通常是一个robots.txt的文本文件，一般放在网站的根目录下。爬虫基础 - 文章图片
5.2robotparser用来解析robots.txt
常用的方法

内容总结

以上是互联网集市为您收集整理的爬虫基础全部内容，希望文章能够帮你解决爬虫基础所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1000050.html

来源：【匿名】

【上一篇】爬虫介绍【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫基础】教程文章相关的互联网学习教程文章

httpclient下载网页源码---java基础爬虫【代码】【图】

有关httpclient：HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性，它不仅使客户端发送Http请求变得容易，而且也方便开发人员测试接口（基于Http协议的），提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会更加深入。org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别Commons的HttpClient项...

爬虫基础知识（叁）

一、cookie和session：　　　　1、cookie和session的定义：　　　　　　cookie是网站用来辨别用户身份，进行会话跟踪，存储在本地终端上的数据。　　　　　　session起始含义是指有始有终的一系列动作和消息。在web中，session主要用来在服务器存储特定用户对象会话所需要的信息。　　　　2、cookie和session产生的原因：　　　　　　http协议是一个无状态协议，在特定操作的时候，需要保存信息，进而产生了cookie和session。　　　...

所谓的python web爬虫基础【代码】

import re正则表达式：常用的符号：点号问号星号和小括号.：匹配任意字符，换行符\n除外——点号可以理解为占位符，一个点号匹配一个字符。*:匹配前一个字符0次或无限次?:匹配前一个字符0次或者1次.*：贪心算法（尽可能多的匹配到数据）.*?：非贪心算法（尽可能多的找到满足条件的组合）()：括号内的数据将会作为结果返回。常用的方法：findall，Search，Subfindall：匹配所有符合规律的内容Search：匹配并提出第一个符合规律的...

网络爬虫基础练习【代码】

0.可以新建一个用于练习的html文件，在浏览器中打开。329.html<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>Simple DOM Demo</title> </head><body><h1>This is the document body</h1><P ID = "p1Node">This is paragraph 1.</P><P ID = "p2Node">段落2</P><a href="http://www.gzcc.cn/">广州商学院</a><li><a href="http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html"><div class="news-l...

爬虫基础【代码】

0x1、基础框架原理1.1、爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中1.1、基础原理1、发起HTTP请求2、获取响应内容3、解析内容解析html数据解析json数据解析二进制数据4、保存数据（数据库、文件）1.2、发起HTTP请求-Request1、HTTP请求方法：常用的请求方法：GET，POST其他请求方法：HEAD，PUT，DELETE，OPTHONS2、请求URLWeb上每种可用的资源，如 HTML文档、...

爬虫基础知识（陆）

一、多线程爬虫（一）程序、进程与线程：　　　　程序：相当于一个应用。　　　　进程：程序运行资源（内存资源）的最小分配单位，一个程序可以有多个进程。　　　　线程：cpu最小的调度单位，必须依赖进程而存在。线程没有独立资源，所有线程共享该进程的全部资源。　　　　线程的划分尺度比进程小。　　（二）为什么多进程和多线程可以提高程序的运行速度？　　　　1、提高程序的运行速度的第一种方法：提高CPU的利用率。　　　　...

爬虫基础之HTTP协议和Chrome抓包工具【代码】

categories:爬虫 tags:URL详解什么是HTTP协议和HTTPS协议HTTP协议：全称是HyperText Transfer Protocol,中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口是80HTTPS协议：是HTTP协议的加密版本，在HTTP的基础上加入了SSL层。服务器端口为443在浏览器中发送一个HTTP请求的过程:注意：此过程关注点在Python爬虫并非细节请求过程当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HT...

java网络爬虫基础学习（一）

刚开始接触java爬虫，在这里是搜索网上做一些理论知识的总结主要参考文章：gitchat 的java 网络爬虫基础入门，好像要付费，也不贵，感觉内容对新手很友好。　　一、爬虫介绍　　网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。　　传统爬虫：　　获得URL -》放入队列 -》抓取网页，分析信息 -》新的URL -》放入队列 -》抓取网页，分析信息... -》满足一定条件，停止。　　聚焦爬虫：...

爬虫基础模块【代码】

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。...

Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。2.浏览网页的过程在用...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理【代码】

1.设置用户代理默认情况下，urliib2使用python-urllib、2.7 作为用户代理下载网页内容，其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理，确保下载更加可靠，我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理。import urllib2def download(url,user_agent=‘wswp‘, num_retries=2): print ‘downloading:‘,url headers={‘User-agent‘:user_agent} request=u...

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)【代码】

https://www.cnblogs.com/zhaof/p/6910871.html Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块我们可以这样认为 urlopen 只有 url 没有参数，那么就是 get 请求，如果添加data参数就是 post 请求。 get 请求import urllib.parse import urllib.request‘‘‘ urllib.request.urlopen参数的介绍： urllib.request.u...

爬虫基础知识与简单爬虫实现【代码】

css规则：选择器，以及一条或者多条生命。selector{declaration1;,,,;desclarationN}每条声明是由一个属性和一个值组成property:value例子：h1{color:red;fontsize:14px} 元素选择器：直接选择文档元素比如head,p类选择器：元素的class属性，比如<h1 class =”important”>类名就是important.important选择所有有这个类属性的元素可以结合元素选择器，比如p.important id选择器元素的id属性，比如<h1 id=”aa”>id就是aa#aa用于选...

网络爬虫基础练习【代码】【图】

import requests url=‘http://localhost:63342/zjc/news.html?_ijt=p2l5n0shp613m01ad0jlpobino‘ res=requests.get(url) res.encoding=‘utf-8‘from bs4 import BeautifulSoup soup=BeautifulSoup(res.text,‘html.parser‘)取出h1标签的文本print(soup.h1.text) 取出a标签的链接s=soup.a.attrs[‘href‘] print(s) 取出所有li标签的所有内容s=soup.select(‘li‘) print(s) 取出一条新闻的标题、链接、发布时间、来源s0=soup.s...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 爬虫基础

爬虫基础

内容导读

内容图文

内容总结

内容备注

内容手机端

【爬虫基础】教程文章相关的互联网学习教程文章

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程