首页 / 爬虫 / python3.6 涂鸦王国-图片-爬虫笔记

python3.6 涂鸦王国-图片-爬虫笔记

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python3.6 涂鸦王国-图片-爬虫笔记，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2203字，纯文字阅读大概需要4分钟。

内容图文

python3.6 涂鸦王国-图片-爬虫笔记 - 文章图片
打开第一个链接，查看详细信息

关键点在于
前一个.jpg是原图，可以通过操作字符串的方式改写得到原链接

更早时候发布的图片，链接方式不一样
python3.6 涂鸦王国-图片-爬虫笔记 - 文章图片
这里写一个判断获取的src是否为空就可以区分

关键问题解决，整理下思路
1.https://www.gracg.com/p599367964217379?page=1
改变“page=x”可以得到所有的图片的目录列表------format可以操作
2.xpath得到每个缩略图所指向的图片单独链接

def get_infos(url):
    res=requests.get(url,headers=headers)
    selector=etree.HTML(res.text)

    pic_urls=selector.xpath('//div[@class="imgbox"]/a/@href')
    for pic_url in pic_urls:
        print(pic_url)
        get_pictures(pic_url)
        time.sleep(1)

3.得到单独一个图片链接之后，区分新旧网页的代码，构造下载链接

def get_pictures(url):
    res=requests.get(url,headers=headers)
    selector=etree.HTML(res.text)
    #获取图片的名字
    pic_name=selector.xpath('/html/body/div[1]/div[2]/div[1]/div/div[2]/text()')
    name=pic_name[0].strip().replace('\n','')#去除空格回车这些乱七八糟的
    print(name)
    #获取图片的下载链接
    pic_url=selector.xpath('//div[@class="workPage-images"]/img/@src')
    # print(pic_url)
    if len(pic_url):
        # 如果不只有一张图片，图片名字后面加数字
        if len(pic_url)==1:
            downloadurl = pic_url[0].split('!')[0]
            data = requests.get(downloadurl, headers=headers)
            fp = open(downloadpath + name + '.jpg', 'wb')
            fp.write(data.content)
            fp.close()
        else:
            num=1
            for pic_u in pic_url:
                downloadurl=pic_u.split('!')[0]
                data=requests.get(downloadurl,headers=headers)
                fp=open(downloadpath+name+'__'+num.__str__()+'.jpg','wb')
                num+=1
                fp.write(data.content)
                fp.close()

            # print(downloadurl)
    else:
        pic_url=selector.xpath('//div[@class="workPage-images"]/a/@href')
        #如果不只有一张图片，图片名字后面加数字
        if len(pic_url)==1:
            downloadurl=pic_url[0]
            data = requests.get(downloadurl, headers=headers)
            fp = open(downloadpath + name + '.jpg', 'wb')
            fp.write(data.content)
            fp.close()
        else:
            num = 1
            for pic_u in pic_url:
                downloadurl = pic_u.split('!')[0]
                data = requests.get(downloadurl, headers=headers)
                fp = open(downloadpath + name + '__' + num.__str__() + '.jpg', 'wb')
                num += 1
                fp.write(data.content)
                fp.close()

4.最后写个主程序进入就行了，再把该导入的包，访问头补一下就行

if __name__=='__main__':
    downloadpath='E:/spider_pictures/小归mist_20190505/'
    urls=['https://www.gracg.com/p599367964217379?page={}'.format(num) for num in range(7,27)]
    for url in urls:
        get_infos(url)

内容总结

以上是互联网集市为您收集整理的python3.6 涂鸦王国-图片-爬虫笔记全部内容，希望文章能够帮你解决python3.6 涂鸦王国-图片-爬虫笔记所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/829194.html

来源：【匿名】

更多 ►

【python3.6 涂鸦王国-图片-爬虫笔记】教程文章相关的互联网学习教程文章

python 百度图片爬虫【代码】

# -*- coding:utf-8 -*- #https://blog.csdn.net/qq_32166627/article/details/60882964import requests import os import pinyindef getManyPages(keyword,pages):params=[]for i in range(30,30*pages+30,30):params.append({‘tn‘: ‘resultjson_com‘,‘ipn‘: ‘rj‘,‘ct‘: 201326592,‘is‘: ‘‘,‘fp‘: ‘result‘,‘queryWord‘: keyword,‘cl‘: 2,‘lm‘: -1,‘ie‘: ‘utf-8‘,‘oe‘: ‘utf-8‘,‘adpicid‘: ‘‘...

python写的百度图片爬虫【代码】【图】

学了一下python正则表达式，写一个百度图片爬虫玩玩。当技术遇上心术不正的人，就成我这样的2B青年了。python3.6开发,在Windows下需要安装vc2015动态库。下载地址:http://www.cr173.com/soft/146014.html 1#/usr/bin/env python 2#Guoyabin 3#-*- coding:utf-8 -*- 4import re,os5import requests6 7 keyword=input(‘请输入搜索关键词:‘)8 os.chdir(‘C:\\Users\\Administrator\\Desktop\\‘)9if os.path.exists(keyword) ==Fal...

python爬虫入门教程之点点美女图片爬虫代码分享

继续鼓捣爬虫，今天贴出一个代码，爬取点点网「美女」标签下的图片，原图。# -*- coding: utf-8 -*- #--------------------------------------- # 程序：点点美女图片爬虫 # 版本：0.2 # 作者：zippera # 日期：2013-07-26 # 语言：Python 2.7 # 说明：能设置下载的页数 #--------------------------------------- import urllib2 import urllib import repat = re.compile(\n.*?imgsrc="(ht.*?)\".*?) nexturl1 = "h...

python爬虫入门教程之糗百图片爬虫代码分享【图】

学习python少不了写爬虫，不仅能以点带面地学习、练习使用python，爬虫本身也是有用且有趣的，大量重复性的下载、统计工作完全可以写一个爬虫程序完成。用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下，写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下：代码如下: # -*- coding: utf-8 -*- # 上面那句让代码里支持中文 #--------------------------------...

简单的Python抓taobao图片爬虫

写了一个抓taobao图片的爬虫，全是用if，for，while写的，比较简陋，入门作品。从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。代码如下: # -*- coding: cp936 -*- import urllib2 import urllib mmurl="http://mm.taobao.com/json/request_top_list.htm?type=0&page=" i=0#第二页有个人的页面没图片,会出现IO错误 while i<15:url=mmurl+str(i)#print url #打印出列表的urlup=urllib...

python制作花瓣网美女图片爬虫

花瓣图片的加载使用了延迟加载的技术，源代码只能下载20多张图片，修改后基本能下载所有的了，只是速度有点慢，后面再优化下import urllib, urllib2, re, sys, os,requests path=r"C:\wqa\beautify" url = http://huaban.com/favorite/beauty #http://huaban.com/explore/zhongwenlogo/?ig1un9tq&max=327773629&limit=20&wfl=1 i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like ...

java sql编辑器数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫 java代码生成器

B 集成代码生成器 [正反双向](单表、主表、明细表、树形表，快速开发利器)+快速表单构建器 freemaker模版技术，0个代码不用写，生成完整的一个模块，带页面、建表sql脚本，处理类，service等完整模块C 集成阿里巴巴数据库连接池druid 数据库连接池阿里巴巴的 druid。Druid在监控、可扩展性、稳定性和性能方面都有明显的优势D 集成安全权限框架shiro Shiro 是一个用 Java 语言实现的框架，通过一个简单易用的 API 提供身份验证...

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

A代码编辑器，在线模版编辑，仿开发工具编辑器，pdf在线预览，文件转换编码B 集成代码生成器 [正反双向](单表、主表、明细表、树形表，快速开发利器)+快速表单构建器 freemaker模版技术，0个代码不用写，生成完整的一个模块，带页面、建表sql脚本，处理类，service等完整模块C 集成阿里巴巴数据库连接池druid 数据库连接池阿里巴巴的 druid。Druid在监控、可扩展性、稳定性和性能方面都有明显的优势D 集成安全权限框架shiro S...

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

python+tkinter+动画图片+爬虫（查询天气）的GUI图形界面设计【代码】【图】

1.完整代码： import time import urllib.request #发送网络请求，获取数据 import gzip #压缩和解压缩模块 import json #解析获得的数据 from tkinter import * root1 = Tk() #用tkinter建立根窗口 root1.title(天气查询xgj@V1.0)#窗口标题 root1.geometry(1300x800+500+0) #注意x=是小写的字母x，不是乘号 root1.configure(bg=black) #构建一个函数，bg=背景颜色设置 Label(root1,text = 请输入要...