首页 / 爬虫 / Python3网络爬虫开发实战（一）

Python3网络爬虫开发实战（一）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python3网络爬虫开发实战（一），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6624字，纯文字阅读大概需要10分钟。

内容图文

1.开发环境配置

1.1Python3的安装

在写博客之前，楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时，没有对应版本的wheel文件。因此，将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知，先用3.7.9的版本。

官方网站：http://python.org
下载地址：https://www.python.org/downloads

1.2请求库的安装

爬虫可以简单的分为几步：抓取页面、分析页面、存储数据。

在抓取页面的过程中，需要模拟浏览器向服务器发出请求，需要用到一些Python库来实现HTTP请求操作。
- 用到的第三方库有requests、Selenium、aiohttp
  1. requests：
    
    中文文档：http://docs.python-requests.org/zh_CN/latest
    
    pip安装：pip install requests
    
    验证安装：import requests，如没有错误提示，则安装成功。
  2. Selenium：
    
    Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作。对于一些JavaScript渲染的页面来说，这种抓取方式非常有效。
    
    中文文档：http://selenium-python-zh.readthedocs.io
    
    pip安装：pip install selenium
    
    验证安装：import selenium，如没有错误提示，则安装成功
  3. ChromeDriver：
    
    配合Selenium进行使用。安装前确保正确安装Chrome浏览器并正常运行。
    
    下载地址：https://chromedriver.storage.googleapis.com/index.html
    
    环境变量配置：Windows下，建议直接将chromedriver.exe文件拖到Python的Scripts目录下。
    
    验证安装：配置完成后，可以直接在命令行下执行chromedriver命令
    
    ? chromedriver
    
    ? 类似输出为：
    Starting ChromeDriver 88.0.4324.96 (68dba2d8a0b149a1d3afac56fa74648032bcf46b-refs/branch-heads/4324@{#1784}) on port 9515
    Only local connections are allowed.
    Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
    ChromeDriver was started successfully.
    
    ? (Note：保持ChromeDriver运行)随后在程序中测试。执行如下Python代码：
```
from selenium import webdriver
browser = webdriver.Chrome()
```
    ? 运行之后，如果弹出一个空白的Chrome浏览器则配置成功。如果弹出后闪退，则可能是Chromedriver版本与Chrome版本不兼容。
  4. GeckoDriver：
    
    对于Firefox，使用同样的方式完成Selenium的对接。
    
    下载地址：https://github.com/mozilla/geckodriver/releases
    
    环境变量配置：在Windows下，可以直接将geckodriver.exe文件拖到Python的Scripts目录下。
    
    验证安装：配置完成后，可以直接在命令行下执行geckodriver命令
    
    ? geckodriver
    
    ? 类似输出为：
```
1611245059623   geckodriver     INFO    Listening on 127.0.0.1:4444
```
    ? (Note：保持GeckoDriver运行)随后在程序中测试。执行如下Python代码：
```
from selenium import webdriver
browser = webdriver.Firefox()
```
    ? 运行之后，若弹出一个空白的 Firefox 浏览器，则证明所有的配置都没有问题。
  5. PhantomJS：
```
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
  warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '
```
    (Note：selenium已经放弃PhantomJS了，建议使用火狐或者谷歌无界面浏览器)
  6. aiohttp：
    - requests是一个阻塞式HTTP请求库，当我们发出一个请求后，程序会一直等待服务器响应，直到服务器响应后，程序才会进行下一步处理。
    - aiohttp提供异步Web服务，大大提高了效率
    pip安装：pip install aiohttp

1.3解析库的安装

抓取网页代码之后，下一步就是从网页中提取信息。方式多种多样，可以使用正则来提取，但是写起来相对繁琐。
- 所以提供了解析库，如lxml、Beautiful Soup、pyquery等。
  1. lxml：
    
    支持 HTML 和 XML 的解析，支持 XPath 解析方式，而且解析效率非常高。
    
    pip安装：pip install lxml
    
    验证安装：import lxml，若没有错误提示，则安装成功。
  2. Beautiful Soup：
    
    是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式。
    
    中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
    
    准备工作：Beautiful Soup的HTML和XML解析器是依赖于lxml库的，所以在此之前请确保已经成功安装好了lxml库。
    
    pip安装：pip install beautifulsoup4
    
    验证安装：
```
from bs4 import BeautifulSoup
soup = BeautifulSoup('&lt;p&gt;Hello&lt;/p&gt;', 'lxml')  
print(soup.p.string)

# 运行结果如下，则证明安装成功
#Hello
```
  3. pyquery：
    
    提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器
    
    pip安装：pip install pyquery
    
    验证安装：import pyquery，若没有错误报出，则安装成功。
  4. tesserocr：
    
    OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于验证码，可以使用OCR技术将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。
    
    (Note：在安装tesserocr之前，需要安装tesseract)
    - tesseract的安装
      
      下载地址：http://digi.bib.uni-mannheim.de/tesseract
      
      (Note:文件名中带有dev的为开发版本，不带的为稳定版本)
      
      语言包：https://github.com/tesseract-ocr/tessdata
      
      文档：https://github.com/tesseract-ocr/tesseract/wiki/Documentation
      
      下载时可以勾选Additional language data (download)选项来安装 OCR 识别支持的语言包。但是，可能由于被墙的原因，导致下载失败，会报如下错误(并不是版本的问题)。此时，可取消勾选，进行安装。单独下载语言包。
    - tesserocr的安装
      
      pip安装：pip install tesserocr pillow
      
      但是，问题又来了，楼主始终安装不成功。看到错误提示：缺少Visual C++。便选择了使用wheel文件进行的安装。
    Wheel文件地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases
    
    在下载Wheel文件时，要与之前tesseract的版本相一致。也是在此由于Wheel文件只有python3.7版本的，才不得不将之前Python3.9主动降级。
```
   验证安装：`tesseract image.png result -l eng && cat result.txt`(**Note**：cat result.txt是Linux下的命令)

   Windows应该直接输出：`tesseract image.png stdout -l eng`
```

1.4数据库的安装

数据库可以分为关系型数据库和非关系型数据库。关系型数据库如SQLite、MySQL、Oracle、SQL Server、DB2等，其数据库是以表的形式存储；非关系型数据库如MongoDB、Redis，它们的存储形式是键值对，存储形式更加灵活。

用到的数据库主要有关系型数据库MySQL及非关系型数据库MongoDB、Redis
由于楼主已经安装完毕，暂无法给出具体安装过程。
1. Mysql：
  
  官方网站：https://www.mysql.com/cn
  
  下载地址：https://www.mysql.com/cn/downloads
  
  中文教程：http://www.runoob.com/mysql/mysql-tutorial.html
2. MongoDB：
  
  其内容存储形式类似JSON对象，它的字段值可以包含其他文档、数组及文档数组。
  
  官方网站：https://www.mongodb.com
  
  官方文档：https://docs.mongodb.com
  
  中文教程：http://www.runoob.com/mongodb/mongodb-tutorial.html
3. Redis：
  
  官方网站：https://redis.io
  
  官方文档：https://redis.io/documentation
  
  中文官网：http://www.redis.cn
  
  中文教程：http://www.runoob.com/redis/redis-tutorial.html
  
  Redis Desktop Manager：https://redisdesktop.com
  
  Windows下：https://github.com/MSOpenTech/redis/releases

1.5存储库的安装

数据库提供了存储服务，但如果想要和Python交互的话，还需要安装一些Python存储库，如MySQL需要安装 PyMySQL，MongoDB需要安装PyMongo等。

PyMySQL：

pip安装：pip install pymysql

验证安装：

import pymysql
pymysql.VERSION
# (1, 0, 2, None)
# 如果成功输出其版本内容，则证明成功安装

PyMongo：

pip安装：pip install pymongo

验证安装：

import pymongo
pymongo.version
# '3.11.2'
# 如果成功输出其版本内容，则证明成功安装

redis-py：

pip安装：pip install redis

验证安装：

import redis
redis.VERSION
# (3, 5, 3)
# 如果成功输出其版本内容，则证明成功安装

结束语：库的安装暂时到这里，如有需要再次添加完善。

内容总结

以上是互联网集市为您收集整理的Python3网络爬虫开发实战（一）全部内容，希望文章能够帮你解决Python3网络爬虫开发实战（一）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/608781.html

来源：【匿名】

【上一篇】Python爬虫入门教程02：笔趣阁小说爬取【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python3网络爬虫开发实战（一）】教程文章相关的互联网学习教程文章

[Python3网络爬虫开发实战] 1.7.1-Charles的安装【图】

Charles是一个网络抓包工具，相比Fiddler，其功能更为强大，而且跨平台支持得更好，所以这里选用它来作为主要的移动端抓包工具。1. 相关链接官方网站：https://www.charlesproxy.com下载链接：https://www.charlesproxy.com/download2. 下载Charles我们可以在官网下载最新的稳定版本，如图1-43所示。可以发现，它支持Windows、Linux和Mac三大平台。图1-43 Charles下载页面直接点击对应的安装包下载即可，具体的安装过程这里不再赘述...

《python3网络爬虫开发实战》--Ajax数据爬取

1. ajax异步的 JavaScript和 XML。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了 Ajax，便可以在页面不被全部刷新的情况下更新其内容。在这个过程中，页面实际上是在后台与服务器进行了数据交互，获取到数据之后，再利用 JavaScript改变网页，这样网页内容就会更新了。2. Ajax请求网页更新：发送请求解析内容渲染网页3. Ajax分析方法：查看请求过滤请求4. Ajax结果提取：分析请求分析响应原文：https:...

[Python3网络爬虫开发实战] 1.2.6-aiohttp的安装

之前介绍的Requests库是一个阻塞式HTTP请求库，当我们发出一个请求后，程序会一直等待服务器响应，直到得到响应后，程序才会进行下一步处理。其实，这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情，如进行请求的调度、响应的处理等，那么爬取效率一定会大大提高。aiohttp就是这样一个提供异步Web服务的库，从Python 3.5版本开始，Python中加入了async/await关键字，使得回调的写法更加直观和人性化。aiohttp...

Python3网络爬虫开发实战（一）【代码】【图】

1.开发环境配置 1.1Python3的安装在写博客之前，楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时，没有对应版本的wheel文件。因此，将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知，先用3.7.9的版本。官方网站：http://python.org下载地址：https://www.python.org/downloads 1.2请求库的安装爬虫可以简单的分为几步：抓取页面、分析页面、存储数据。在抓取页面的过程中，需要模拟浏览器向...

【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】【代码】【图】

【摘要】本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。1. 准备工作在本节开始之前，请确保已经安装好requests库。如果没有安装，可以参考第1章。 2. 抓取分析在抓取之前，首先要分析抓取的逻辑。打开今日头条的首页http://www.toutiao.com/，如图6-15所示。图6-15 首页内容右上角有一个搜索入口，这...

【Python3网络爬虫开发实战】 3.1.3-解析链接

【摘要】前面说过，urllib库里还提供了parse这个模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet和wais。本节中，我们介绍一下该模块中常用的方法来看一下它的便捷之处。 1. urlparse() 该方法可以实现URL的识别和分...

【Python3网络爬虫开发实战】 3.2-使用requests

【摘要】为了更加方便地实现这些操作，就有了更为强大的库requests，有了它，Cookies、登录验证、代理设置等操作都不是事儿。上一节中，我们了解了urllib的基本用法，但是其中确实有不方便的地方，比如处理网页验证和Cookies时，需要写Opener和Handler来处理。为了更加方便地实现这些操作，就有了更为强大的库requests，有了它，Cookies、登录验证、代理设置等操作都不是事儿。接下来，让我们领略一下它的强大之处吧。【快速入...

【Python3网络爬虫开发实战】3.1.1-发送请求【图】

【摘要】使用urllib的request模块，我们可以方便地实现请求的发送并得到响应，本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证（authenticaton）、重定向（redirection)、浏览器Cookies以及其他内容。下面我们来看一下它的强大之处。这里以Python官网为例，我们来把这个网页抓下来：import urllib.request resp...

【Python3网络爬虫开发实战】3.1.2-处理异常

【摘要】前一节我们了解了请求的发送过程，但是在网络不好的情况下，如果出现了异常，该怎么办呢？这时如果不处理这些异常，程序很可能因报错而终止运行，所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异常。 1. URLError URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块生的异常都可以通...

《python3网络爬虫开发实战》--模拟登陆

1.cookies池的搭建Cookies池需要有自动生成 Cookies、定时检测 Cookies、提供随机 Cookies等几大核心功能。Cookies 池架构的基本模块分为 4 块:存储模块、生成模块、检测模块和接口模块。每个模块的功能如下。存储模块负责存储每个账号的用户名密码以及每个账号对应的 Cookies 信息，同时还需要提供一些方法来实现方便的存取操作。生成模块负责生成新的 Cookies。此模块会从存储模块逐个拿取账号的用户名和密码，然后模拟...

《python3网络爬虫开发实战》--数据存储【代码】【图】

1. TXT文本 1 import requests2 from pyquery import PyQuery as pq3 4 url = http://www.zhihu.com/explore5 headers = {6 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) 7 Chrome/69.0.3497.100 Safari/537.368 }9 html = requests.get(url, headers=headers).text 10 doc = pq(html) 11 items = doc(.explore-tab .feed-item).items() 12 for it...

《python3网络爬虫开发实战》--基本库的使用【代码】

1. urllib:request:它是最基本的 HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网挝然后回车一样，只需要给库方法传入 URL 以及额外的参数，就可以模拟实现这个过程了。 error: parse:一个工具模块，提供了许多 URL处理方法，比如拆分、解析、合并等。 robotparser:主要是用来识别网站的 robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少。2. Handle类：当需要实现高级的功能...

《Python3网络爬虫开发实战》-安装mongodb【代码】【图】

一、MongoDB 下载官网下载地址MongoDB for Windows 64-bit 适合 64 位的 Windows Server 2008 R2, Windows 7 , 及最新版本的 Window 系统。自定义安装创建数据目录MongoDB将数据目录存储在 db 目录下。但是这个数据目录不会主动创建，我们在安装完成后需要创建它。请注意，数据目录应该放在根目录下（(如： C: 或者 D: 等 )。在本教程中，我们已经在 C 盘安装了 mongodb，现在让我们创建一个 data 的目录然后在 data 目录里创建 ...

首页 / 爬虫 / Python3网络爬虫开发实战（一）

Python3网络爬虫开发实战（一）

内容导读

内容图文

1.开发环境配置

1.1Python3的安装

1.2请求库的安装

1.3解析库的安装

1.4数据库的安装

1.5存储库的安装

内容总结

内容备注

内容手机端

【Python3网络爬虫开发实战（一）】教程文章相关的互联网学习教程文章

[Python3网络爬虫开发实战] 1.7.1-Charles的安装【图】

《python3网络爬虫开发实战》--Ajax数据爬取

[Python3网络爬虫开发实战] 1.2.6-aiohttp的安装

Python3网络爬虫开发实战（一）【代码】【图】

【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】【代码】【图】

【Python3网络爬虫开发实战】 3.1.3-解析链接

【Python3网络爬虫开发实战】 3.2-使用requests

【Python3网络爬虫开发实战】3.1.1-发送请求【图】

【Python3网络爬虫开发实战】3.1.2-处理异常

《python3网络爬虫开发实战》--模拟登陆

《python3网络爬虫开发实战》--数据存储【代码】【图】

《python3网络爬虫开发实战》--基本库的使用【代码】

《Python3网络爬虫开发实战》-安装mongodb【代码】【图】

PYTHON3 - 相关标签

爬虫 - 相关标签

开发 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程