首页 / PYTHON / python爬取网页图片并保存到本地

python爬取网页图片并保存到本地

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬取网页图片并保存到本地，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1705字，纯文字阅读大概需要3分钟。

内容图文

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。

下面是具体步骤：

先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片

页面是这样的

技术分享图片

首先做的就是得到它的源代码找到图片地址在哪里

这个函数最终会返回网页代码

def getHtml(url):
    html = requests.get(url)
    return html.text

　将其先导入文本文件观察

技术分享图片

发现图片的地址所在位置格式是这样

<img src="https://overwatch.nosdn.127.net/1/assets/img/pages/heroes/list/zarya.png" class="portrait" />

因此就可以依此写出正则表达式，并从网页代码中将图片地址提取出来

    imagelist=re.findall(‘img src="(.*?)" class="portrait"‘,html)

　　上面这句话得到的就是图片地址的集合

之后要做的就是遍历集合中的地址，依此下载并保存到目标的文件夹中

下面是项目完整代码

# -*- coding: utf-8 -*-
‘‘‘
Created on 2020年3月12日

@author: 20514
‘‘‘
import requests
import re
#打开网页,获取网页源码
def getHtml(url):
    html = requests.get(url)
    
    return html.text

def getImag(html):
    imagelist=re.findall(‘img src="(.*?)" class="portrait"‘,html)
 
    pat = ‘list/(.*?).png‘ 
    ex = re.compile(pat)    
    i=1
    for url in imagelist:
        print ‘Downloding:‘+url 
        #从图片地址下载数据
        image=requests.get(url)
#         获取英雄名（这里可以自己为文件取名就行，下面的name变量是从图片地址中提取到的英雄名）
        pat = ‘list/(.*?).png‘ 
        ex = re.compile(pat) 
        if ex.search(url):
            name=ex.search(url).group(1)
        else:
            pat =‘heroes/(.*?)/hero-select‘ 
            ex = re.compile(pat)
            if ex.search(url):
                name=ex.search(url).group(1)               
            else:
                name=‘new‘+str(i)+‘?‘
                i=i+1
        #在目标路径创建相应文件
        f=open(‘C:\\Users\\20514\\Desktop\\owhero\\‘+name+‘.png‘,‘wb‘)
        #将下载到的图片数据写入文件
        f.write(image.content)
        f.close()
  

    return ‘结束‘

print(‘获取ow官网英雄图片‘)
url=‘https://ow.blizzard.cn/heroes/‘
print(‘正在获取图片‘)
html=getHtml(url)
print(‘下载图片中‘)
print(getImag(html))
print(‘下载完成‘)

　　效果：

技术分享图片

-------------------------------------------------------------------------------------------------------------------------------------

近几天学了点通过python爬取网页的知识，不得不说跟java相比起来，这方面python真的方便太多了。

原文：https://www.cnblogs.com/liuleliu/p/12482021.html

内容总结

以上是互联网集市为您收集整理的python爬取网页图片并保存到本地全部内容，希望文章能够帮你解决python爬取网页图片并保存到本地所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1251440.html

来源：【匿名】

【上一篇】python爬虫索引越界【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python爬取网页图片并保存到本地】教程文章相关的互联网学习教程文章

python爬取网页图片并保存到本地【代码】【图】

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return html.text将其先导入文本文件观察发现图片的地址所在...

Python面向对象编程指南（第9章）序列化和保存-JSON、YAML,PickleCSV和XML【代码】

把这本压箱底的书拿出来看了下，感觉还不错，就给自己记录一下。JSON,YAML,Pickle,XML和CSV比较适合用于数据交换，主要应用于单一对象而非多个对象的场景。Shelve支持多个对象的持久化为了存储Python中的对象，必须先将其转换为字节，然后再将字节写入文件，这个过程成为序列化，又要数据转化，压缩，编码。这是一本好书，超级烂的翻译，很多文字描述语句都读不通。9.3定义用于持久化的类。书中定义了类，通过jinja2来渲染实例。代...

Python，使用pandas保存数据为csv格式的文件【代码】

使用pandas对数据进行保存时，可以有两种形式进行保存　　一、对于数据量不是很大的文件，可以放到列表中，进行一次性存储。　　二、对于大量的数据，可以考虑一边生成，一边存储，可以避免开辟大量内存空间，去往列表中存储数据。本人才疏学浅，只懂一些表面的东西，如有错误，望请指正！下面通过代码进行说明 1import pandas as pd2 3 4class SaveCsv:5 6def__init__(self):7 self.clist = [[1,2,3], [4,5,6], [7,8,9...

四、Python系列——Pandas数据库写入数据并追加保存多个sheet--覆盖原excel表数据与不覆盖原excel表数据的情况【代码】【图】

1import pandas as pd 2import numpy as np 3 data1 = pd.DataFrame(np.arange(12).reshape((3, 4))) 4 data2 = pd.DataFrame(np.random.randn(1, 2)) 5 data3 = pd.DataFrame(np.random.randn(2, 3)) 6 data4 = pd.DataFrame(np.random.randn(3, 4))View Code--该代码是后续内容所使用到的数据。使用Pandas数据库对Excel文件进行写入并保存--追加并保存多个sheet时覆盖原excel表数据与不覆盖的情况# 1.使用文件.to_excel ---覆盖原...

Python脚本读取Chrome浏览器保存的网站密码【代码】

#coding:utf-8import os import sys import sqlite3 import win32cryptdirectory_path = r‘Google\Chrome\User Data\Default\Login Data‘ file_path=os.path.join(os.environ[‘LOCALAPPDATA‘],directory_path) conn=sqlite3.connect(file_path) cursor = conn.cursor() cursor.execute(‘select username_value, password_value, signon_realm from logins‘) for data in cursor.fetchall():passwd = win32crypt.CryptUnprote...

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果，经详细查看请求的方式为post，请求的结果为JSON数据具体实现代码如下：import requests import json finalstr = ‘‘#初始化字符串 totlePage = 0 #初始化总页数 test = 0 #初始化数据总条数 url = ‘http://study.163.com/p/search/studycourse.json‘ headers = {‘content-type‘: ‘application/json‘}def getD...

python3.5读取网页代码，并保存【代码】

在旧版的python中有个urllib模块，内有一个urlopen方法可打开网页，但新版python中没有了，新版的urllib模块里面只有4个子模块（error,request,response,parse),urlopen方法位于request子模块下。from urllib import requesturl = "http://www.163.com"#网页地址 wp = request.urlopen(url) #打开连接 content = wp.read() #获取页面内容 fp = open("a1.txt","w+b") #打开一个文本文件 fp.write(content) #写入数据 fp.close() #关...

Python连接数据库查询结果保存excl

pymysql------操作mysql数据库openpyxl------操作excel表连上mysql操作：1、打开数据库import pymysqldb=pymysql.connect(host,user,password,database)2、使用cursor()方法创建一个游标对象cursor=db.cursor()3、执行操作a、数据库插入 try:　　curcor.excute(sql)　　db.commit()except:　　db.rollback()b、数据库查询（fetchone()--该方法获取下一个查询结果集。结果集是一个对象、fetchall()-----接收全部的返回结果行.）cu...

python 保存网页为pdf到本地【代码】

1import urllib22import cookielib3import pdfkit4 5 cj = cookielib.LWPCookieJar()6 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))7 urllib2.install_opener(opener)8 url = "https://www.taobao.com/" 9 req = urllib2.Request(url) 10‘‘‘ 保存html到本地‘‘‘11 operate = opener.open(req) 12 msg = operate.read() 13 document = ‘D://1.html‘14 file_ = open(...

python保存二维列表到txt文件，读取txt文件里面的数据转化为二维列表【代码】

源码：# 读文件里面的数据转化为二维列表def Read_list(filename):file1 = open(filename+".txt", "r")list_row =file1.readlines()list_source = []for i in range(len(list_row)):column_list = list_row[i].strip().split("\t") # 每一行split后是一个列表list_source.append(column_list) # 在末尾追加到list_source file1.close()return list_source#保存二维列表到文件def Save_list(list1,filename):fil...

python3爬虫初探（五）之从爬取到保存【代码】【图】

想一想，还是写个完整的代码，总结一下前面学的吧。import requests import re# 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/‘ data = requests.get(url).text#正则表达式三部曲 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片"> regex = r‘<img src="(.*?.jpg)"‘#匹配网址 pa = re.compile(regex)#转为pattern对...

Python jsonpath，requests 实战：保存qq 群所有人的头像照片【代码】

import osimport jsonpathimport requestsdef save_jpg(qun): qun_url = "https://qun.qq.com/cgi-bin/qun_mgr/search_group_members" # 群管理URL qun_data = {"gc": qun, "st": 0, "end": 40, "sort": 0, "bkn": "1491271352"} # 群管理入参 qun_cookie = "pgv_pvid=6781060641; pgv_pvi=4527042560; tvfe_boss_uuid=bb0dca750dec4f2a; XWINDEXGREY=0; mobileUV=1_170385b99a4_66029; RK=KaTcs5izUF; ptcz=2f3ee47046...

用Python将处理数据得到的csv文件分类（按顺序）保存

用Python中的os和numpy库对文件夹及处理数据后得到的文件进行分类保存；import numpy as npimport osfor m in range(699,0,-35):　　cur_dir=‘F:/2019_09_01/‘　　folder_name=‘partdata_0_‘　　if not os.path.exists(cur_dir+folder_name+str(m)):　　　　os.mkdir(os.path.join(cur_dir,folder_name+str(m)))　　else:　　　　pass　　for j in range(4,11):　　　　np.savetxt(os.path.join(‘F:/2019_09_01/partdata_0_‘...

python读取文件中的路径内容，保存到另外的路径中

#encoding=utf-8import os import os.path import shutil def moveFileto(sourceDir, targetDir): shutil.copy(sourceDir, targetDir)target = raw_input(‘targetDir‘)filename = raw_input(‘enter pathfile name:‘)fobj = open(filename,‘r‘)for x in fobj: print x; source = x.strip(‘\n‘) #去除行尾\n moveFileto(source,target)fobj.close()原文：http://www.cnblogs.com/lovely7/p/5728384.html

Python Numpy中数据的常用的保存与读取方法【代码】

在经常性读取大量的数值文件时(比如深度学习训练数据),可以考虑现将数据存储为Numpy格式,然后直接使用Numpy去读取,速度相比为转化前快很多.下面就常用的保存数据到二进制文件和保存数据到文本文件进行介绍:1.保存为二进制文件(.npy/.npz)numpy.save保存一个数组到一个二进制的文件中,保存格式是.npy参数介绍numpy.save(file, arr, allow_pickle=True, fix_imports=True)file:文件名/文件路径 arr:要存储的数组 allow_pickle:布尔值...

首页 / PYTHON / python爬取网页图片并保存到本地

python爬取网页图片并保存到本地

内容导读

内容图文

内容总结

内容备注

内容手机端

【python爬取网页图片并保存到本地】教程文章相关的互联网学习教程文章

保存 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程