爬虫爬取图片并下载

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫爬取图片并下载，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1294字，纯文字阅读大概需要2分钟。

内容图文


import requests
import re
import os
import time

"""获取主网页"""
web_page = ‘https://www.vmgirls.com/‘
headers = {
    ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘
}
urls_response = requests.get(web_page,headers=headers)
urls_html = urls_response.text

"""解析主主网页获取下一层网页"""
all_urls = re.findall(‘https://.*?/\d*.html‘,urls_html)
urls = list(set(all_urls))
# print(urls)

"""下载下一页的网页图片"""
num_list = []
for url in urls:
    url_resopnse = requests.get(url,headers=headers)
    html=url_resopnse.text
    dir_name = re.findall(‘<h1 >(.*?)</h1>‘,html)[-1]
    wget_urls = re.findall(‘https:.*?.jpeg‘,html)
    print("\033[32;1m %s upload %s pictures\033[0m" %(dir_name,len(wget_urls)))
    num = len(wget_urls)
    num_list.append(num)

    for wget_url in wget_urls:
        time.sleep(1)
        file_name = wget_url.split(‘/‘)[-1]
        print(file_name)
        dir_name = re.findall(‘<h1 >(.*?)</h1>‘,html)[-1]
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
        response = requests.get(wget_url,headers=headers)
        with open(dir_name + ‘/‘ + file_name,‘wb‘) as f:
            f.write(response.content)

sum = 0
for i in num_list:
    sum += i
print("\033[31;1mThere are %s pictures that need to be crawled\033[0m" % (sum))

原文：https://blog.51cto.com/12629984/2488712

内容总结

以上是互联网集市为您收集整理的爬虫爬取图片并下载全部内容，希望文章能够帮你解决爬虫爬取图片并下载所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1210730.html

来源：【匿名】

【上一篇】【Alpha版本发布】爬虫队长正在待命！【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫爬取图片并下载】教程文章相关的互联网学习教程文章

import requests import re import os import time"""获取主网页""" web_page = ‘https://www.vmgirls.com/‘ headers = {‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘ } urls_response = requests.get(web_page,headers=headers) urls_html = urls_response.text"""解析主主网页获取下一层网页""" all_urls = re.findall(‘https...

python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙，主要是备忘容易出错的地方。供自己以后查阅。#图片下载import reimport urllib.request #python3中模块名和2.x（urllib）的不一样site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘page=urllib.request.urlopen(site)html=page.read()html=html.decode(‘utf-8‘) #读取下来的网页源码需要转换成utf-8格式reg=r‘src="//(gd.*?jpg)‘imgre=re.compile(reg)imgl...

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

今天终于把脚本弄好了，虽然是东拼西凑的，总算有点成就感啦，下面把代码帖这～package studyjava;import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java...

httpclient下载网页源码---java基础爬虫【代码】【图】

有关httpclient：HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性，它不仅使客户端发送Http请求变得容易，而且也方便开发人员测试接口（基于Http协议的），提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会更加深入。org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别Commons的HttpClient项...

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

这两天发现了一个叫看知乎的站点。是知乎的苏莉安做的，当中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫，改用nodejs 进行实现一下。体验一下强大的 Node.js。假设之前没实用过 JavaScript，最好还是到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习，高速熟悉一下基本的语法，有其它语言基础一天时间足够。有基本的了解后。就会发现 JavaScript 的两大特点：使用基于原型（prototype）的方...

（一）爬虫之网页下载【代码】【图】

1，相关知识　　robots.txt: 一些网站会定义robots.txt文件（https://www.example.com/robots.txt），规定了网页爬取的相关限制，查看其内容，遵守规则可以避免过早IP被封。　　　　下面为知乎robots.txt部分内容（https://www.zhihu.com/robots.txt）。（disallow 表示不允许爬取的url；Crawl-delay：10，表示两次抓取之间需要10秒延迟）　　sitemap:有的robots.txt的html源码中会给出网站的sitemap，获得网站的sitemap，可以了解...

python 站点爬虫下载在线盗墓笔记小说到本地的脚本

近期闲着没事想看小说，找到一个全是南派三叔的小说的站点，决定都下载下来看看，于是动手，在非常多QQ群里高手的帮助下（本人正則表達式非常烂。程序复杂的正则都是一些高手指导的），花了三四天写了一个脚本须要 BeautifulSoup 和 requests 两个库（我已经把凝视写得尽量具体）这个程序的运行速度非常慢，求高手告诉我优化的方法。！#-*-coding:utf8-*-from bs4 import BeautifulSoup import requests import re import os#打开网...

[python][爬虫]暴漫gif下载【代码】

说明：和上一个下载百度贴吧图片差不多，修改了正则，加入了页码控制#!/usr/bin/env python#! -*- coding: utf-8 -*-#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" import urllib,urllib2 import re #返回网页源代码defgetHtml(url, page):tempUrl = url + str(page)print tempUrlhtml = urllib2.urlopen(tempUrl)srcCode = html.read()return srcCodedefgetImg(url, start_page, end_pa...

python3.4爬虫批量下载音乐【图】

最近在学习python，使用的版本为python3.4，开发环境为使用Pydev插件的eclipse。正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错，决定使用python批量下载下来。 1、音乐地址经过分析，页面嵌入的虾米播放器中的地址如下，后面以逗号分隔的字符为音乐的id，如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><span style="font-size:14px;"> <embed src="http://www.xiami....

使用爬虫批量下载图片【代码】【图】

import requestsfrom bs4 import BeautifulSoupimport reurl=‘http://www.quanjing.com/‘headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3253.3 Safari/537.36‘}response=requests.get(url=url,headers=headers)response.encoding=‘utf-8‘html=response.textsoup=BeautifulSoup(html,‘html.parser‘)imgs_src=soup.find_all(‘img‘,src=re.compile(‘...

Python网络爬虫实战案例之：7000本电子书下载（4）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第四部分：7000本电子书下载网络爬虫-源码框架剖析。配套视频课程详见：51CTO学院。二、章节目录3.1 requests-html文件结构3.2 requests-html源码框架3.3 导入依赖库3.4 HTMLSession请求类3.5 HTMLResponse请求响应类3.6 HTML页面结构类三、正文3.1 requests-html 文件结构3.2 requests-html源码框架3.3 导入依赖库3.4 HTMLSession请求类3.5 HTMLResponse请求响应类3.6 HTML页面...

Python系列爬虫之下载B站视频【图】

前言之前好像有人问怎么用python下载B站的视频，于是今天稍微研究了一下，发现还是挺简单的，于是过来分享一波。让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：requests模块；contextlib模块；以及一些Python自带的模块。其他工具：ffmpeg环境搭建同Python批量下载网易云课堂视频。原理简介FLV视频格式(科普一下)：FLV(Flash Video)是Adobe公司设计开发的一种流行的流媒体格式，由于其视频文件体积轻巧、封装简单等特点，...

PyQt5 打造GUI爬虫小说下载器【图】

空余时间学习Py大概三个多月了，中间写了一些工作需要的脚本和小工具.基本都是shell的，所以一直想学习一下GUI编程，了解了一下Py自带的标准库GUI库TK之后发现这玩意实在太难用了而且也不好看，果断弃之。寻找了一阵其他的GUI库,于是乎发现了PyQt。本人是个大菜鸡喜欢看小说，但是免费的小说app里面广告实在太多了，体验糟透。于是萌发了自己动手搞一个爬虫，要方便使用，花了一周晚上的时间，中间卡壳找找资料，最后基本算是弄出...

Python爬虫下载视频文件部分源码【代码】【图】

分享一下我自己整理的代码，改两个参数就可使用（扫描下方二维码获取python学习资料）import requests import time headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36‘ } movie_url = ‘在这里输入视频地址，例如：http://www.***********.mp4‘ movie_name = ‘视频标题‘ downsize = 0 print(‘开始下载‘) startTi...

Python实现爬虫从网络上下载文档【代码】

最近在学习Python，自然接触到了爬虫，写了一个小型爬虫软件，从初始Url解析网页，使用正则获取待爬取链接，使用beautifulsoup解析获取文本，使用自己写的输出器可以将文本输出保存，具体代码如下：Spider_main.py# coding:utf8from baike_spider import url_manager, html_downloader, html_parser, html_outputerclass SpiderMain(object):def__init__(self):self.urls = url_manager.UrlManager()self.downloader = html_downlo...

下载 - 相关标签

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...