Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1225字,纯文字阅读大概需要2分钟。
内容图文
![Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码](/upload/InfoBanner/zyjiaocheng/643/cec80daf929145a886b680733196a0a1.jpg)
写爬虫, 首先需要了解爬虫是什么?网络爬虫,是自动从网络下载自己需要的网页,进行处理并保存的工具.Python从零开始写爬虫将从零开始写爬虫,最终该爬虫能够从笔趣阁(http://www.biquger.com/)爬取小说.
竟然爬虫是自动下载自己需要的网页, 那么Python如何获取网页呢?Python通过发送http请求到网页服务器,从而获得网页的源码.python使用http请求主要有4种方式:
urllib
- Requests
- Octopus
- HTTPie
其中Request是目前最受欢迎的的http请求库. 本教程也将使用该库来进行http请求. Reustests不是Python自带的库, 所以需要通过pip进行安装, python 3 以及pip的安装请自行百度安装:
pip install requests
安装成功后:
这个时候, 就可以在python中使用Requests了.
首先导入Requests库
import requests
导入之后, 就可以使用其来发送http请求了.这里以获取Python的Api文档https://docs.python.org/zh-cn/3/library/index.html为例
r = requests.get('https://docs.python.org/zh-cn/3/library/index.html')
之后就可以输入获取到的网页了.
print(r.text)
输出之后,会发现出现许多乱码.
做过网页开发的人应该都知道这是应为编码的问题,获取Requests使用的网络编码:
print(r.encoding)
发现Requests使用的是ISO-8859-1编码, 而通过查看网页源码发现,该网页使用的是UTF-8编码.这应该就是造成乱码的原因,设置Request的编码:
r.encoding='utf-8'
之后在输出网页, 发现乱码消失了.
Python从零开始写爬虫第一步, 使用http请求后的网页源码就已经完成了.
内容总结
以上是互联网集市为您收集整理的Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码全部内容,希望文章能够帮你解决Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。