首页 / 爬虫 / python爬虫基础简单知识笔记一
python爬虫基础简单知识笔记一
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python爬虫基础简单知识笔记一,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1517字,纯文字阅读大概需要3分钟。
内容图文
![python爬虫基础简单知识笔记一](/upload/InfoBanner/zyjiaocheng/621/0d09c8e853554c98a86b7377ca06d62b.jpg)
日期:2020-11-25笔记
1.判断网页是否允许爬虫
大众点评网为例
from urllib.robotparser import RobotFileParser
rp=RobotFileParser()
rp.set_url('http://www.dianping.com/')
rp.read()
print(rp.can_fetch('*','http://www.dianping.com/'))
2.抓取网站cookie
百度为例
import http.cookiejar,urllib.request
cookie=http.cookiejar.CookieJar()
handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open("http://www.baidu.com")
for item in cookie:
print(item.name+"="+item.value)
3.异常处理
e.code返回异常状态信息,判断服务器状态
from urllib import request,error
try:
response=request.urlopen('https://cuiqingcai.com/index.htm')
except error.HTTPError as e:
print(e.reason,e.code,e.headers,sep='\n')
print(e.code)
requests库
判断相应状态,做爬虫时可以加个try-except,返回200则为正常
import requests
r=requests.get("https://www.baidu.com")#get方法请求,常用的还有post方法
print(r.status_code)
print(r.cookies) #输出cookies
print(r.headers) #输出头
for key,value in r.cookies.items(): #相对于urllib更方便
print(key+'='+value)
4.设置代理
代理可以在网上找
import requests
proxies={
"http" :"http://110.10.1.10:3128",
"https":"https://10.10.1.10:1080",
}
requests.get("https://www.baidu.com",proxies=proxies)
5.超时设置
请求时设置响应时间
import requests
requests.get("https://www.baidu.com",timeout=3)#设置3s
6.身份验证
有些网页一点击去就需要登录
import requests
r = requests.get(url, auth =(' username ', ' password'))
print(r.status_ code) #返回200则登陆成功
最后:我是垃圾加小白,请不要喷我
内容总结
以上是互联网集市为您收集整理的python爬虫基础简单知识笔记一全部内容,希望文章能够帮你解决python爬虫基础简单知识笔记一所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。