首页 / AJAX / Python网络爬虫-模拟Ajax请求抓取微博

Python网络爬虫-模拟Ajax请求抓取微博

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python网络爬虫-模拟Ajax请求抓取微博，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4041字，纯文字阅读大概需要6分钟。

内容图文

Python模拟Ajax请求

有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取到的都是原始的HTML静态文档，而浏览器中的页面则是经过javaScript处理数据后生成的结果，这些数据的来源有很多种，可能是通过Ajax加载的，经过JS生成等。

Ajax:全称是Asynchronous JavaScript and XML，即异步的JavaScript和XML。它能够保证在页面不被刷新、页面链接不改变的情况下刷新并展示数据。比如我们在刷微博的时候，微博有下滑查看更多内容，一直下滑会出现一个加载的动画，不一会儿就继续出现新的微博内容，这就是Ajax加载的过程。在这个过程中，页面实际上利用Ajax请求在后台与服务器进行了数据交互，在获取数据之后再利用JavaScript改变网页，这样网页内容就会更新了。

下面利用Ajax请求抓取微博的内容。

1.目标

抓取新浪微博个人首页发表的个人微博数据，如微博内容、点赞、评论和转发数量等。

2.分析

打开Chrome，输入https://m.weibo.cn/u/2695482785，并下滑拉倒底部，查看请求的发送过程：

Python网络爬虫-模拟Ajax请求抓取微博 - 文章图片

如上图所示，初次进去，然后点开查看请求Network，分别查看XHR（是Ajax请求的方式），分别查看Headers和preview以及Response。

分析结果：

请求URL：https://m.weibo.cn/api/container/getIndex?type=uid&value=2695482785&containerid=1076032695482785&page=2
请求方式：GET
请求头：详见Request Headers
请求参数：type、value、containerid和page

请求的响应分析：

如上图所示，请求的响应内容是一个json格式的数据，点开data关键字下并点开cards目录，然后点开具体内容，里面有个mlog字段，然后展开，可以发现正是微博的一些信息，比如attitudes_count（点赞数量），comments_count（评论数量），reposts_count（转发数量），text（微博正文）等。

因此，我们请求一次接口，就可以得到10条微博，而请求的参数只需要改变page参数即可。

3.解析响应内容

获取json数据后，我们可以查找data关键字来获取其下的具体内容，然后获取cards关键字下的具体内容，通过解析cards下每个item具体的内容来提取我们想要的数据，因此解析json的代码如下：

def parse_page(json):
    if json:
        items = json.get('data').get('cards') # 获取到cards内容是一个item列表
        for item in items: # 循环列表提取数据
            item = item.get('mblog')
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = item.get('text')
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo # 返回一个weibo的map

4.整体代码

# -*- coding: utf-8 -*-
# @Time    : 2019-07-12 21:47
# @Author  : xudong
# @email   : dongxu222mk@163.com
# @Site    : 
# @File    : ajaxTest.py
# @Software: PyCharm

from urllib.parse import urlencode
import requests
import json


# 请求的url
base_url = "https://m.weibo.cn/api/container/getIndex?";

# 构造请求头
headers = {
    'Host' : 'm.weibo.cn',
    'Referer' : 'https://m.weibo.cn/u/2695482785',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/52.0.2743.116 Safari/537.36',
    'X-Requested-With' : 'XMLHttpRequest'
}

# 获取每一页的请求数据返回的是json格式
def get_page(page):
    params = {
        'type' : 'uid',
        'value' : '2695482785',
        'containerid' : '1076032695482785',
        'page' : page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        print(type(response))
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error', e.args)


# 解析每一页的json数据，并返回一个weibo的map类型数据
def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = item.get('text')
            print(type(item.get('text')))
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo


# 将解析完的数据写入文件
def write_file(content):
    with open('weibo1.txt', 'a' ,encoding='utf-8') as file:
        file.write(content)

if __name__ == '__main__':
    for page in range(3): # 只爬取了三页
        json1 = get_page(page)
        results = parse_page(json1)
        for result in results:
            print(result)
            write_file(json.dumps(result, ensure_ascii=False) + '\n')

当运行后，能够在当前的目录中看到weibo1.txt的结果并有如下的数据则表面模拟Ajax请求抓取微博成功，目标达成。

当然可以用自己的微博uid去试试啊～～～

Python网络爬虫-模拟Ajax请求抓取微博 - 文章图片

内容总结

以上是互联网集市为您收集整理的Python网络爬虫-模拟Ajax请求抓取微博全部内容，希望文章能够帮你解决Python网络爬虫-模拟Ajax请求抓取微博所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/743548.html

来源：【匿名】

【上一篇】php – Twitter Typeahead Ajax结果未定义【下一篇】AJAX for PHP简单表数据查询实例

更多 ►

【Python网络爬虫-模拟Ajax请求抓取微博】教程文章相关的互联网学习教程文章

ajax请求【代码】

method：请求的类型；GET 或 POSTopen(method,url,async) url：文件在服务器上的位置async：true（异步）或 false（同步）send(string) 将请求发送到服务器string：仅用于 POST 请求Get请求： <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <script> function loadXMLDoc() {var xmlhttp;if (window.XMLHttpRequest){// IE7+, Firefox, Chrome, Opera, Safari 浏览器执行代码xmlhttp=new XMLHttpRequest();}else{// IE6, ...

SpringMVC的AJAX请求报406错误【图】

SpringMVC的AJAX请求报406错误原因有两种：1、jackson包没有引入2、如果已经引入jackson包了还报406的错误，那么就有可能是请求的url路径是.html结尾，但是返回的数据是一个对象，这时浏览器就不知道怎么响应了，因为一般请求.html后缀的页面，返回的一般是个字符串或者页面内容，此时可以在web.xml中再配置一个拦截后缀，如*.action，web.xml可以有多个拦截后缀，请求.action的后缀，浏览器就没有这个限制了原文：http://www.cnb...

使用jQuery形成Ajax请求【代码】

1.创建MVC4新项目，使用"Internet应用程序"模板。2.添加CustomAjax控制器，具体代码如下。publicclass CustomAjaxController : Controller{public ActionResult Index(){return View();}public ActionResult PrivacyPolicy(){return PartialView();}}3.添加PrivacyPolicy分部视图@section Scripts{<script type="text/javascript" src="@Url.Content("~/scripts/AjaxDemo.js")"></script> }@Html.ActionLink("Show the privacy pol...

jquery的get方式发送AJAX请求【代码】

1<!DOCTYPE html> 2<html> 3<head> 4<meta http-equiv="content-type" content=‘text/html;charset=utf-8‘> 5<script src="https://cdn.bootcss.com/jquery/3.3.1/jquery.min.js"></script> 6<title></title> 7</head> 8<body> 9<script>10//* get方式向php传递参数name和age 2种方法11//* data为php返回值可指定格式12/*13 url:待载入页面的URL地址 14 data:待发送 Key/value 参数。 15 callback:载入成功...

想抛就抛：Application_Error中统一处理ajax请求执行中抛出的异常【代码】【图】

女朋友不是想抛就抛，但异常却可以，不信请往下看。今天在MVC Controller中写代码时，纠结了一下：publicasync Task<ActionResult> Save(int? postId) {if(!IsOwner(postId.Value, userId)){ //抛不抛异常呢？ } }在这个地方要不要抛异常呢？如果不抛异常，就得这么写：publicasync Task<ActionResult> Save(int? postId) {if(!IsOwner(postId.Value, userId)){return Json(new {isSuccess = false,message ...

jQuery里面ajax请求的封装【代码】

为了避免ajax漫天飞，我们需要对jQuery的代码进行封装，封装代码：function api_request(name, params, cb, scope, async, el) {if (async == null)async = true;console.log(‘调用接口:\n%s,\n参数列表:‘, REQUEST_URL+name, params);$.ajax( {url : REQUEST_URL+name,async : async,data : params,type : ‘POST‘,dataType:‘json‘,cache : false,timeout:70000,success : function(data, textStatus) {//alert(data.obj[0]....

AJAX请求遭遇未登录和Session失效的解决方案【代码】【图】

使用技术：HTML + Servlet + Filter + jQuery 一般来说我们的项目都有登录过滤器，一般请求足以搞定。但是AJAX却是例外的，所以解决方法是设置响应为session失效。一共分为过滤器和页面JS两个部分的设置，先看过滤器的修改：import java.io.IOException;import javax.servlet.Filter; import javax.servlet.FilterChain; import javax.servlet.FilterConfig; import javax.servlet.ServletException; import javax.servlet.Servlet...

angularjs中ajax请求时传递参数的方法【代码】

method1方法使用的是params参数，该用法会把参数直接附加到url中method2方法使用的是data参数，该参数会把页面参数类型从默认的multipart/form-data改为application/x-www-form-urlencoded类型，并且将传递的data解析为字符串，该方法会以post参数的方式传递下面是代码部分：<html ng-app="myApp"><head><title>angularjs-ajax</title><script type="text/javascript" src="../../lib/ionic/js/angular/angular.min.js" charset="u...

jQuery的AJAX请求发送JSON参数【代码】

关于心跳ajax请求pending状态（被挂起），stalled时间过长的问题。涉及tcp连接异常。【图】

环境：景安快云服务器（听说很垃圾，但是公司买的，我也刚来），CentOS-6.8-x86_64，Apache，MySQL5.1，PHP5.3.问题：现公司有一个php系统，需要重复向后台发送ajax请求，但是会出现pending状态，我现在需要解决这个问题，或者说找到问题在服务器，代码，还是客户端，然后有个交代，但是不知道从何下手，毕竟还是it萌新啊。。效果如图。两个特点，1：就是越往后的请求，pengding时间越长，且其中绝大部分时间被stalled占用（此问题...

Ajax 请求头中常见content-type（Ajax发送请求的请求体数据的编码格式）--转载【代码】【图】

1、HTTP规范HTTP 协议规范把 HTTP 请求分为三个部分：状态行、请求头、消息主体。协议规定 POST 提交的数据必须放在消息主体（entity-body）中，但协议并没有规定数据必须使用什么编码方式。实际上，开发者完全可以自己决定消息主体的格式，只要最后发送的 HTTP 请求满足上面的格式就可以。但是，数据发送出去，还要服务端解析成功才有意义。一般服务端语言如Java 等，以都内置了自动解析常见数据格式的功能。服务端通常是根据请求...

JQuery ajax请求一直返回Error（parsererror）【代码】

项目中common.js中有一段ajax异常处理方法：$(document).ajaxComplete(function(event,xhr,options) {if (xhr.statusText=="parsererror") {top.location.href="/admin";}}); 有一个异常页面的ajax请求如下：$.ajax({ type :"post", url :"XXXXXXXXXXXXXXXXXXXXXXXXXXXXX", timeout : 40000, data: "null", error : function(XMLHttpRequest, textStatus, errorThrown) { alert(XMLHttpRequest.status); alert(XMLHttpRequ...

vue 中 ajax请求封装以及使用方法【代码】

async/await　　1）async/await场景　　这是一个用同步的思维来解决异步问题的方案，当前端接口调用需要等到接口返回值以后渲染页面时。　　2）名词解释　　>async 　　 async的用法，它作为一个关键字放到函数前面，用于表示函数是一个异步函数，因为async就是异步的意思，异步函数也就意味着该函数的执行不会阻塞后面代码的执行， async 函数返回的是一个promise 对象。　　>await 　　await的含义为等待...

vue-发送AJAX请求应用

获取指定github账户信息并显示一、需求分析需求分析：github和自己的项目不在一个域里面，需要跨域查询。跨域常见有两种实现方式：一是JSONP（客户端）二是CORS（服务端）跨域的实现原则：如果某网站的服务端是允许跨域的，客户端直接请求即可。如果某网站的服务端不允许跨域，则需要使用JSONP来实现跨域。github的服务端是允许跨域的，因此直接获取账号信息。二、需求实现原文：https://www.cnblogs.com/AnnLing/p/15185218.htm...

Javascript发送AJAX请求【代码】

一个对AJAX的封装//url就是请求的地址 //successFunc就是一个请求返回成功之后的一个function，有一个参数，参数就是服务器返回的报文体 function ajax(url,successFunc) {var xhr = window.XMLHttpRequest ? new XMLHttpRequest() : new ActiveXObject(‘Microsoft.XMLHTTP‘);xhr.open("POST",url,true);xhr.onreadystatechange = function(){if(xhr.readyState == 4){if(xhr.status == 200){successFunc(xhr.responseText);}els...

首页 / AJAX / Python网络爬虫-模拟Ajax请求抓取微博

Python网络爬虫-模拟Ajax请求抓取微博

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python网络爬虫-模拟Ajax请求抓取微博】教程文章相关的互联网学习教程文章

ajax请求【代码】

SpringMVC的AJAX请求报406错误【图】

使用jQuery形成Ajax请求【代码】

jquery的get方式发送AJAX请求【代码】

想抛就抛：Application_Error中统一处理ajax请求执行中抛出的异常【代码】【图】

jQuery里面ajax请求的封装【代码】

AJAX请求遭遇未登录和Session失效的解决方案【代码】【图】

angularjs中ajax请求时传递参数的方法【代码】

jQuery的AJAX请求发送JSON参数【代码】

关于心跳ajax请求pending状态（被挂起），stalled时间过长的问题。涉及tcp连接异常。【图】

Ajax 请求头中常见content-type（Ajax发送请求的请求体数据的编码格式）--转载【代码】【图】

JQuery ajax请求一直返回Error（parsererror）【代码】

vue 中 ajax请求封装以及使用方法【代码】

vue-发送AJAX请求应用

Javascript发送AJAX请求【代码】

PYTHON - 相关标签

AJAX - 相关标签

爬虫 - 相关标签

AJAX - 技术教程分类

AJAX - 最新教程

AJAX - 最热教程