首页 / 爬虫 / Python微博用户主页小姐姐图片内容采集爬虫！

Python微博用户主页小姐姐图片内容采集爬虫！

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python微博用户主页小姐姐图片内容采集爬虫！，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2757字，纯文字阅读大概需要4分钟。

内容图文

python爬虫，微博爬虫，需要知晓微博用户id号，能够通过抓取微博用户主页内容来获取用户发表的内容，时间，点赞数，转发数等数据，当然以上都是本渣渣结合网上代码抄抄改改获取的！

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

要抓取的微博地址：https://weibo.com/u/5118612601

BUT，我们实际应用的抓取地址：https://m.weibo.cn/u/5118612601（移动端的微博地址）

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

LSP的最爱，各种小姐姐，随你任意爬取，快收藏起来啊！

通过浏览器抓包，我们可以获悉几个比较重要的参数：

type:?uidvalue:?5118612601containerid:?1005055118612601

其实还有一个比较重要的参数，那就是翻页：'page':page！

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

还有一个SSL错误问题，大家可以自行处理！

#多线程下载图片

def get_imgs(self,img_urls,img_path):

threadings = []

for img_url in img_urls:

t = threading.Thread(target=self.get_img, args=(img_url,img_path))

threadings.append(t)

t.start()

for x in threadings:

x.join()

print("多线程下载图片完成")

def get_img(self, img_url,img_path):

img_name = img_url.split('/')[-1]

print(f'>> 正在下载图片：{img_name} ..')

r = requests.get(img_url, timeout=8, headers=self.headers,verify=False)

with open(f'{img_path}/{img_name}', 'wb') as f:

f.write(r.content)

print(f'>> 图片：{img_name} 下载完成！')

几个关键点

获取 containerid 参数

????def?get_containerid(self):????????url?=?f'https://m.weibo.cn/api/container/getIndex?type=uid&value={self.uid}'????????data?=?requests.get(url,headers=self.headers,timeout=5,verify=False).content.decode('utf-8')????????content?=?json.loads(data).get('data')????????for?data?in?content.get('tabsInfo').get('tabs'):????????????if?(data.get('tab_type')?==?'weibo'):????????????????containerid?=?data.get('containerid') ????????self.containerid=containerid

获取微博用户发表数据

多线程下载图片

????#多线程下载图片
????def?get_imgs(self,img_urls,img_path):
????????threadings?=?[]
????????for?img_url?in?img_urls:
????????????t?=?threading.Thread(target=self.get_img,?args=(img_url,img_path))
????????????threadings.append(t)
????????????t.start()
 
????????for?x?in?threadings:
????????????x.join()
 
????????print("多线程下载图片完成")
 
 
????def?get_img(self,?img_url,img_path):
????????img_name?=?img_url.split('/')[-1]
????????print(f'>>?正在下载图片：{img_name}?..')
????????r?=?requests.get(img_url,?timeout=8,?headers=self.headers,verify=False)
????????with?open(f'{img_path}/{img_name}',?'wb')?as?f:
????????????f.write(r.content)
????????print(f'>>?图片：{img_name}?下载完成！')

本来还想搞个多进程，结果翻车了，报错各种头秃，那就不搞了！！

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

手里头有二份微博爬虫的源码，不同的爬取地址和思路，一起分享给大家，仅供参考学习！

一份还包含GUI界面，当然这是本渣渣参考的主要来源代码！

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

亲测可运行哈！！

Python微博用户主页小姐姐图片内容采集爬虫！ - 文章图片

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

内容总结

以上是互联网集市为您收集整理的Python微博用户主页小姐姐图片内容采集爬虫！全部内容，希望文章能够帮你解决Python微博用户主页小姐姐图片内容采集爬虫！所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/620373.html

来源：【匿名】

【上一篇】python爬虫基础简单知识笔记一【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python微博用户主页小姐姐图片内容采集爬虫！】教程文章相关的互联网学习教程文章

社会化海量数据采集爬虫框架搭建【代码】【图】

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整...

网络爬虫采集数据几个问题

最近在做网络爬虫抓取数据，遇到几个重要问题，记录下来，以免忘记。目前用的是第三方开源爬虫框架webmagic，所以暂时记录下来的不是爬虫实现和结构上的问题，而主要是在此框架上的逻辑开发问题。1.要采集的数据在不同的页面上比如，采集网站http://down.7po.com/上的应用，在应用列表页面有应用的id等信息，而此应用的详细页面没有列表页面的这些字段信息，那么就要从列表页面和详细页面中取出字段然后再合成一个应用的整...

【网络爬虫】微信公众号采集【代码】

# WeixinCrawler根据搜狗搜索关键词采集微信公众号和相应推文采集策略：深度搜索采集核心代码：package main;import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.net.MalformedURLException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Random; import java.util.Set;import org.apache.log4j.Logger; i...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

QueryList 是什么?QueryList是一套用于内容采集的PHP工具，它使用更加现代化的开发思想，语法简洁、优雅，可扩展性强。相比传统的使用晦涩的正则表达式来做采集，QueryList使用了更加强大而优雅的CSS选择器来做采集，大大降低了PHP做采集的门槛，同时也让采集代码易读易维护，让你从此告别晦涩难懂且不易维护的正则表达式。 QueryList 提供的一整套内容采集解决方案● DOM内容选择：CSS选择器● HTTP客户端：GuzzleHTTP● 内容过滤...

Python简单两步实现天气爬虫采集器

说道爬虫大家或许感觉非常神秘，其实它没有我们想象的那么神奇（当然，google和baidu的爬虫是一场复杂和强大的，它的强大不是爬虫本身强大，而是后台的数据处理和数据挖掘算法非常强大），今天我们就来揭开它神秘的面纱。呵呵，简单两步就可以实现一个网页天气爬虫程序。。。爬虫简单说来包括两个部分：1.获得网页文本信息。2.数据分析，获取其中我们想要的数据。1、获得网页文本信息。python在获取html方面十分方便，有了urllib库...

python网络爬虫采集联想词示例

python爬虫_采集联想词代码代码如下:#coding:utf-8import urllib2import urllibimport reimport timefrom random import choice#特别提示，下面这个list中的代理ip可能失效，请换上有效的代理ipiplist = [27.24.158.153:81,46.209.70.74:8080,60.29.255.88:8888] list1 = ["集团","科技"]for item in list1: ip= choice(iplist) gjc = urllib.quote(item) url = "http://sug.so.360.cn/suggest/word?callback=suggest_so...

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

1.在Scrapy工程下新建“middlewares.py”# Importing base64 library because well need it ONLY in case if the proxy we are going to use requires authentication import base64# Start your middleware class class ProxyMiddleware(object):# overwrite process requestdef process_request(self, request, spider):# Set the location of the proxyrequest.meta[proxy] = "http://YOUR_PROXY_IP:PORT"# Use the following l...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。　　1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。代码如下: def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。　　2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正...

Python制作爬虫采集小说

开发工具：python3.4 操作系统：win8 主要功能：去指定小说网页爬小说目录，按章节保存到本地，并将爬过的网页保存到本地配置文件。被爬网站：http://www.cishuge.com/ 小说名称：灵棺夜行代码出处：本人亲自码的import urllib.request import http.cookiejarimport socket import time import retimeout = 20 socket.setdefaulttimeout(timeout)sleep_download_time = 10 time.sleep(sleep_download_time)def makeMyOpener(head...

社会化海量数据采集爬虫框架搭建【图】

随着BIGDATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下...

python爬虫：搜狗微信公众号文章信息的采集（https://weixin.sogou.com/），保存csv文件【代码】【图】

import requests from requests.exceptions import RequestException from lxml import etree import csv import re import time from urllib import parse import timedef get_page(url):"""获取网页的源代码:param url::return:"""try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',}response = requests.get(url, headers=headers)if res...

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集)【代码】【图】

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集) 小程序爬虫接单、app爬虫接单、网页爬虫接单、接口定制、网站开发、小程序开发> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流，请勿用于非法用途直接上代码 # -*- coding:utf-8 -*- import requests import datetime import time import json import os import xlrd import xlwt from xlutils.copy import copy'''功能点：1、美团优选商...

首页 / 爬虫 / Python微博用户主页小姐姐图片内容采集爬虫！

Python微博用户主页小姐姐图片内容采集爬虫！

内容导读

内容图文

几个关键点

内容总结

内容备注

内容手机端

【Python微博用户主页小姐姐图片内容采集爬虫！】教程文章相关的互联网学习教程文章

社会化海量数据采集爬虫框架搭建【代码】【图】

网络爬虫采集数据几个问题

【网络爬虫】微信公众号采集【代码】

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

Python简单两步实现天气爬虫采集器

python网络爬虫采集联想词示例

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

Python天气预报采集器实现代码(网页爬虫)

Python制作爬虫采集小说

社会化海量数据采集爬虫框架搭建【图】

python爬虫：搜狗微信公众号文章信息的采集（https://weixin.sogou.com/），保存csv文件【代码】【图】

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集)【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

采集 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程