首页 / 爬虫 / Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1225字，纯文字阅读大概需要2分钟。

内容图文

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码

写爬虫, 首先需要了解爬虫是什么?网络爬虫,是自动从网络下载自己需要的网页,进行处理并保存的工具.Python从零开始写爬虫将从零开始写爬虫,最终该爬虫能够从笔趣阁(http://www.biquger.com/)爬取小说.

竟然爬虫是自动下载自己需要的网页, 那么Python如何获取网页呢?Python通过发送http请求到网页服务器,从而获得网页的源码.python使用http请求主要有4种方式:

　　　urllib

Requests

Octopus

HTTPie

其中Request是目前最受欢迎的的http请求库. 本教程也将使用该库来进行http请求. Reustests不是Python自带的库, 所以需要通过pip进行安装, python 3 以及pip的安装请自行百度安装:

pip install requests

安装成功后:

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码 - 文章图片

这个时候, 就可以在python中使用Requests了.

首先导入Requests库

import requests

导入之后, 就可以使用其来发送http请求了.这里以获取Python的Api文档https://docs.python.org/zh-cn/3/library/index.html为例

r = requests.get('https://docs.python.org/zh-cn/3/library/index.html')

之后就可以输入获取到的网页了.

print(r.text)

输出之后,会发现出现许多乱码.

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码 - 文章图片

做过网页开发的人应该都知道这是应为编码的问题,获取Requests使用的网络编码:

print(r.encoding)

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码 - 文章图片

发现Requests使用的是ISO-8859-1编码, 而通过查看网页源码发现,该网页使用的是UTF-8编码.这应该就是造成乱码的原因,设置Request的编码:

r.encoding='utf-8'

之后在输出网页, 发现乱码消失了.

Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码 - 文章图片

Python从零开始写爬虫第一步, 使用http请求后的网页源码就已经完成了.

内容总结

以上是互联网集市为您收集整理的Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码全部内容，希望文章能够帮你解决Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/642683.html

来源：【匿名】

【上一篇】初探python爬虫（四）——xpath 【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码】教程文章相关的互联网学习教程文章

postman + restsharp 做Http请求爬虫

1、Postman 模拟请求完成之后，点击右上角的 code 按钮，复制代码。2、在Vs2019 Nuget 包管理器中添加 restsharp.dll， 3、粘贴到 Vs2019 中，运行即可，即可进行Http 请求。 PS：需要预登陆时，预登陆请求获得的Session相关的Cookie，需要放到数据请求的cookie中。原文：https://www.cnblogs.com/yutian/p/11768381.html

Python爬虫开发：https请求加密问题解决【图】