首页 / 爬虫 / 三、Python爬虫-requests库数据挖掘

三、Python爬虫-requests库数据挖掘

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了三、Python爬虫-requests库数据挖掘，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2796字，纯文字阅读大概需要4分钟。

内容图文

requests库数据挖掘

requests安装和使用

　　下载安装：pip install requests

#requests模块

import requests

#发送请求 content:以二进制的形式获取网页的内容
response=requests.get("http://www.baidu.com").content.decode()
#response=requests.request("get","http://www.baidu.com").content.decode()

print(response)

添加请求头和参数

import requests

url="http://www.baidu.com/s?"

headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
}

wd={"wd":"中国"}

response=requests.get(url,params=wd,headers=headers)

# 返回一个字符串形式的数据
data=response.text
# 返回一个二进制形式的数据
data2=response.content

print(data2.decode())

处理Post请求

　　处理get请求：get()方法

　　处理post请求：post()方法

import requests
import re

#构造请求头信息
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36"
}#谷歌浏览器

#http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule 网页上的url
url="http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

key="靓仔"

#发送到web服务器的表单数据
formdata={
"i":key,
"from":"AUTO",
"to":"AUTO",
"smartresult":"dict",
"client":"fanyideskweb",
"salt":"15880563488791",
"sign":"cc2c40d740538fc5edc0380891faef27",
"ts":"1588053583943",
"bv":"f9c86b1fdf2f53c1fefaef343285247b",
"doctype":"json",
"version":"2.1",
"keyfrom":"fanyi.web",
"action":"FY_BY_REALTlME"

}

response=requests.post(url,headers=header,data=formdata)

# 获取到的是json数据
# 对应的是字典
# print(response.json())

pat=r'"tgt":"(.*?)"}]]' #字符串中有"",再用''括起来表示字符串

# 获取到的是字符串
result=re.findall(pat,response.text)

print(result[0])

代理IP

import requests

#设置ip地址
#proxy={"http":"http://代理ip地址:端口号"}
#可以设置多个
proxy={
"http":"http://222.82.130.23:8060",
"http":"http://101.248.64.68:80",
}

response=requests.get("http://www.baidu.com",proxies=proxy)

print(response.content.decode())

获取响应的cookie

　　cookie：用户信息

import requests

response=requests.get("http://www.baidu.com")

#1.获取返回的cooketjar对象
cookiejar=response.cookies

#2.将cookiejar转换成字典
cookiedict=requests.utils.dict_from_cookiejar(cookiejar)

print(cookiedict)

session实现登陆

　　相比直接使用cookie，创建session可以得到新的cookie信息，不会出现cookie失效的情况

#使用session实现登陆

import requests

#构造请求头信息
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36"
}#谷歌浏览器

#创建session对象
ses=requests.session()

#构造登陆需要的参数
data={"email":"325*****@qq.com","password":"123321a"}

#通过传递用户名密码得到cookie信息
ses.post("http://www.renren.com/PLogin.do",data=data)

#请求需要的页面,每次请求会带入cookie信息
response=ses.get("http://www.renren.com/880151247/profile")

print(response.text)

内容总结

以上是互联网集市为您收集整理的三、Python爬虫-requests库数据挖掘全部内容，希望文章能够帮你解决三、Python爬虫-requests库数据挖掘所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/630970.html

来源：【匿名】

【上一篇】python爬虫学习笔记(十一)-数据提取之PyQuery的使用【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【三、Python爬虫-requests库数据挖掘】教程文章相关的互联网学习教程文章

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

python 爬虫数据准换时间格式【代码】

1 timeStamp = 1381419600 2 dateArray = datetime.datetime.utcfromtimestamp(timeStamp) 3 otherStyleTime = dateArray.strftime("%Y--%m--%d %H:%M:%S") 4print otherStyleTime # 2013--10--10 15:40:005 dateArray = datetime.datetime.utcfromtimestamp(timeStamp) 6 otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S") 原文：https://www.cnblogs.com/duanlinxiao/p/9830236.html

python 爬虫知乎

人生苦短，唯有python是不是代码写多了自己就熟练了呢？人人网爬虫模板，具体操作以后有机会再添加吧！#coding: utf-8 import urllib2 import urllib import cookielib import re def ZhihuBrower(url,user,password):#登陆页面，可以通过抓包工具分析获得，如fiddler，wiresharklogin_page = "http://www.zhihu.com/login"try:#获得一个cookieJar实例cj = cookielib.CookieJar()#cookieJar作为参数，获得一个opener的实例opener=u...

python爬虫中多线程的使用【代码】

queue介绍queue是python的标准库，俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可在python中，多个线程之间的数据是共享的，多个线程进行数据交换的时候，不能够保证数据的安全性和一致性，所以当多个线程需要进行数据交换的时候，队列就出现了，队列可以完美解决线程间的数据交换，保证线程间数据的安全性和一致性。#多线程实战栗子（糗百） #用一个队列Queue对象， #先产生所有url，put进队列；...

python3 爬虫5--分析Robots协议

1Robots协议Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下robots.txt中内容的示范：User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效Disallow:/ //表示了不允许抓取的目录，/表示不允许抓取所有目录，没有写就代表允许抓取所有的目录Allow:/public/ //表示在排除Disallow中，可以抓取的目录2robotparserobotparse就是用来专门解析robots.txt文件的...

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面【代码】【图】

??鉴于现阶段国内的搜索引擎还用不上Google, 笔者会寻求Bing搜索来代替。在使用Bing的过程中，笔者发现Bing的背景图片真乃良心之作，十分赏心悦目，因此，笔者的脑海中萌生了一个念头：能否自己做个爬虫，可以提取Bing搜索的背景图片并设置为Windows的电脑桌面呢？Bing搜索的页面如下： ??于是在一个风雨交加的下午，笔者开始了自己的探索之旅。当然，过程是曲折的，但笔者尝试着能把它讲得简单点。 ??首先，我们需要借助一些Pytho...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

python | 爬虫笔记（六）- Ajax数据爬取

request得到和浏览器数据不同数据加载是异步加载方式，原始页面不包含数据，加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。因此遇到这种情况，用requests模拟ajax请求6.1 Ajax 1- 介绍Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。是利用 JavaScript 在...

python 爬虫第二个程序【代码】

#!/usr/bin/python #encoding=utf-8 import urllib2 import urllib import re import thread import time class Spider(object): def __init__(self): self.page = 1 self.pages = [] self.enable = False def Start(self): self.enable = True page = self.page thread.start_new_thread(self.LoadPage,()) while self.enable: ...

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

首页 / 爬虫 / 三、Python爬虫-requests库数据挖掘

三、Python爬虫-requests库数据挖掘

内容导读

内容图文

requests库数据挖掘

requests安装和使用

添加请求头和参数

处理Post请求

代理IP

获取响应的cookie

session实现登陆

内容总结

内容备注

内容手机端

【三、Python爬虫-requests库数据挖掘】教程文章相关的互联网学习教程文章

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

python 爬虫数据准换时间格式【代码】

python 爬虫知乎

python爬虫中多线程的使用【代码】

python3 爬虫5--分析Robots协议

python爬虫scrapy之rules的基本使用【代码】

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面【代码】【图】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

python | 爬虫笔记（六）- Ajax数据爬取

python 爬虫第二个程序【代码】

python爬虫模块理解【代码】

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

python爬虫中图形验证码的处理【代码】【图】

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

REQUESTS - 相关标签

PYTHON - 相关标签

数据挖掘 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程