python 妹子图抓取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 妹子图抓取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含997字，纯文字阅读大概需要2分钟。

内容图文

import requests
import re

headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36",
        "referer": "https://www.mzitu.com/xinggan/"
}

root = "D://Python//image//"

urls = ["https://www.mzitu.com/page/{}".format(i) for i in range(1,4)]
#爬取前三个页面的所有图集
k = 1#图片序号
for url in urls:#遍历总页面链接
    r = requests.get(url, headers = headers)#获得总页面，总页面上有很多图集
    big = re.findall('<span><a href="(.*?)" target="_blank">', r.text)
    #从总页面获取大页面（图集第一页）的所有链接
    for small in big:#遍历所有大页面
        for j in range(1,4):#遍历所有小页面
            url1 = small + '/' + str(j)#每个小页面的链接
            s = requests.get(url1, headers = headers)#获取小页面
            photos_url = re.findall('<img src="(.*?)" alt', s.text)#获得小页面的图片链接
            for photo_url in photos_url:
                photo_html = requests.get(photo_url, headers = headers)#获得小页面图片信息
                with open(root + str(k) + ".jpg","wb") as f:
                    f.write(photo_html.content)
                    k = k + 1#下载的图片编号

内容总结

以上是互联网集市为您收集整理的python 妹子图抓取全部内容，希望文章能够帮你解决python 妹子图抓取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/799602.html

来源：【匿名】

【上一篇】python 基于百度图片搜索【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python 妹子图抓取】教程文章相关的互联网学习教程文章

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果，经详细查看请求的方式为post，请求的结果为JSON数据具体实现代码如下：import requests import json finalstr = ‘‘#初始化字符串 totlePage = 0 #初始化总页数 test = 0 #初始化数据总条数 url = ‘http://study.163.com/p/search/studycourse.json‘ headers = {‘content-type‘: ‘application/json‘}def getD...

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

原文：https://blog.csdn.net/suibianshen2012/article/details/62040460?utm_source=copy # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen...

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

字符串(str)编码成字节码(bytes)，字节码解码为字符串获取当前环境编码：sys.stdin.encodingurl编码urllib.parse.quote()url解码urllib.parse.unquote()列表去重：pages = list(set(pages))创建文件夹（可多级创建）：os.makedirs(folder) os.mkdir()只能单级创建首先分析网页（图虫网）的URL规律：　　根网页地址形如：　　　　http://tuchong.com/tags/人像/?page=[1, 2, 3 ...]　　二级网页链接形如：　　　　href="http://t...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

python爬虫如何抓取代理服务器【代码】

一年前突然有个灵感，想搞个强大的网盘搜索引擎，但由于大学本科学习软件工程偏嵌入式方向，web方面的能力有点弱，不会jsp，不懂html，好久没有玩过sql，但就是趁着年轻人的这股不妥协的劲儿，硬是把以前没有学习的全部给学了一遍，现在感觉web原来也就那么回事。好了，废话就不说了，看到本文的读者，可以先看看我做的东西：去转盘网：www.quzhuanpan.comok搜搜：www.oksousou.com（这个是磁力，顺便拿出来给大伙观赏）言归正传，...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

python抓取CSDN博客首页的全部博文，对标题分词存入mongodb中

原文地址： python抓取CSDN博客首页的全部博文，对标题分词存入mongodb中

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据【代码】【图】

[python]抓取沪深股市交易龙虎榜数据python 3.5.0下运行没做自动建立files文件夹，需要手动在py文件目录下建立files文件夹后运行 #coding=utf-8import gzipimport http.cookiejar import urllib.request import urllib.parse import json import os import time import datetimedef getOpener(head):# deal with the Cookiescj = http.cookiejar.CookieJar()pro = urllib.request.HTTPCookieProcessor(cj)opener = urllib.request...

Python抓取百度音乐。【代码】【图】

今天挑战下百度音乐抓取，先用Chrome分析下请求的链接。最关键的就是这个链接http://play.baidu.com/data/music/songlink请求这个带上songid就能返回给你音乐的json，那么怎么来获取songid呢？点开 http://music.baidu.com/tag，找个标签进去。然后查看页面源码。发现有以下片段。在每首歌曲的li元素的data-songitem里面恰巧包含我们需要的sid。ok，目标明确了，首先请求百度音乐的音乐标签页，然后获得sid。然后请求http://play.b...

python抓取搜索到的url，小型爬虫

#!/usr/bin/python # -*- coding: utf-8 -*-import sys import re import urllib2from BeautifulSoup import BeautifulSoupdef search(key):#请求搜索链接，关键字用参数key代替search_url='http://www.baidu.com/s?ie=UTF-8&wd=key'req=urllib2.urlopen(search_url.replace('key',key))#计数变量，用来记录页数count = 1#主循环，抓取每一页的url，直到最后一页while 1:print "\033[1;31mpage %s:\033[0m" % counthtml=req.read()...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python 妹子图抓取

python 妹子图抓取

内容导读

内容图文

内容总结

内容备注

内容手机端

【python 妹子图抓取】教程文章相关的互联网学习教程文章

Python打印scrapy蜘蛛抓取树结构的方法【代码】

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

python爬虫CSDN文章抓取

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

python爬虫如何抓取代理服务器【代码】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

python抓取CSDN博客首页的全部博文，对标题分词存入mongodb中

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据【代码】【图】

Python抓取百度音乐。【代码】【图】

python抓取搜索到的url，小型爬虫

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程