首页 / PYTHON / 路飞学城Python-Day141

路飞学城Python-Day141

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了路飞学城Python-Day141，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3236字，纯文字阅读大概需要5分钟。

内容图文

什么是爬虫
爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

爬虫的目的就是为了模拟浏览器进行网络数据访问??? ??? ??? ?? 抓取数据的两种方式 ????????????1.抓取全部页面数据 ????????????2.提取部分指定的数据

哪些语言可以实现爬虫
1.php：可以实现爬虫。php被号称是全世界最优美的语言（当然是其自己号称的，就是王婆卖瓜的意思），但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java：可以实现爬虫。java可以非常好的处理和实现爬虫，是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿，重构成本较大。 3.c、c++：可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人（大佬们）能力的体现，却不是明智和合理的选择。 4.python：可以实现爬虫。python实现和处理爬虫语法简单，代码优美，支持的模块繁多，学习成本低，具有非常强大的框架（scrapy等）且一句难以言表的好！没有但是！
爬虫的分类
1.通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

搜索引擎如何抓取互联网上的网站数据？

门户网站主动向搜索引擎公司提供其网站的url
搜索引擎公司与DNS服务商合作，获取网站的url
门户网站主动挂靠在一些知名网站的友情链接中

? ??2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

robots.txt协议
- 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。
反爬虫
- 门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。
反反爬虫
- 爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

第2节：urllib模块简介

? urlib模块是python中自带的一个基于爬虫的模块作用：可以使代码模拟浏览器发起请求?request，?parse 使用流程，应该模仿浏览器发请求 1.指定url 2.针对指定的url发起请求 3.获取服务器相应回来的页面数据 4.将响应回来的数据进行持久化存储

? 第2节：urllib第一个爬虫程序 import urllib.request # 1.指定url url = r'https://www.sogou.com/' # 2.发起请求 # urlopen()参数内部可以指定填写url，且返回一个函数对象 res = urllib.request.urlopen(url=url) # 3.获取页面数据 # 响应对象中会获取存储的数据,read()函数中返回的就是响应对象存储的页面数据 page_text = res.read() print(page_text) # 4.持久化存储 with open('./sogou.html', 'wb') as fp: ????fp.write(page_text) ????print('写入数据成功')

第2节：url编码处理 import urllib.request import urllib.parse # 1.指定url url = r'https://www.sogou.com/web?query=' # 2.发请求 url中不可以存在ascii码的字符数据,否则就会报错,这里需要对中文进行转码和拼接后才能进行处理 word = urllib.parse.quote('人民币') url = url+word res = urllib.request.urlopen(url=url) # print(word) # 3.获取页面数据(二进制的页面数据) page_text = res.read() print(page_text) # 4.持久化存储 with open('./renminbi.html', 'wb') as f: ????f.write(page_text) ????print('写入数据成功')

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

内容总结

以上是互联网集市为您收集整理的路飞学城Python-Day141全部内容，希望文章能够帮你解决路飞学城Python-Day141所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/847084.html

来源：【匿名】

首页 / PYTHON / 路飞学城Python-Day141

路飞学城Python-Day141

内容导读

内容图文

什么是爬虫

哪些语言可以实现爬虫

爬虫的分类

robots.txt协议

反爬虫

反反爬虫

第2节：urllib模块简介

内容总结

内容备注

内容手机端

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程