首页 / 爬虫 / 关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）

关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2576字，纯文字阅读大概需要4分钟。

内容图文

关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）

这两天学习了中国大学：https://www.icourse163.org，实例6 中国大学排名，于是操作了下，由于嵩天老师提供的网页目前已经发生变化，给一起学习的小伙伴带来些困扰，按照老师教授的知识，我突发奇想，可不可以用所学知识将实例中“最好大学”最新网页上的图片爬取下来呢？答案是可以的，以下为我的实践输出，还希望各位大佬互相学习。如有不明白的地方，可留言私信，

#将网站上的图片资源获取下来（单个网页上所有图片获取下来，并修改文件名称）
#
import os
import requests
import bs4
from bs4 import BeautifulSoup
import re

#获取目标文本【爬取网页通用代码框架】，所需参数url为主函数提供
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "获取网页文本失败"

#自定义函数，设定传入参数，参数从getHTMLText(url)方法运算后的结果赋予的变量-demo，解析网页并遍历所需标签，提取所需内容后返回给主函数变量供其他模块函数调用
def jiexi(ulist,demo,url1,schoolname):   
    
    soup = BeautifulSoup(demo,"html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):   #这个地方是判断是否为Tag标签，如果不是则舍弃
            tds = tr('td')   #将td标签内容加入tds列表中，以上为遍历<tbody>儿子标签内容，并赋予一个变量tds
            for tag in tds[1].find_all(re.compile('img')):  #正则表达式、find_all函数、for循环一次，匹配变量tds[1]中所有'img'标签，一旦匹配成功，如下：
                url1.append(tag.get('src'))               #则使用主函数main（）中传入的空列表[]url1和append的函数；get（）函数用于解析'img'标签，提取'src'后的链接内容
            for schnam in tds[1].find_all(re.compile('a')): #正则表达式、find_all函数、匹配变量tds[1]中所有'a'标签，一旦匹配成功，如下：
                schoolname.append(schnam.string)            #则使用主函数main（）中传入的空列表[]schoolname和append的函数 ;标签.string 用于提取标签内非属性字符串
                
#自定义函数，设定传入参数：url1,schoolname，其参数从jiexi()函数中运算得来，再次运算，该函数也引用了【网络图片存储通用代码框架】           
def download(url1,schoolname):
    root = "D://pics2//"
    path = ""
    for i in url1:
        #ss = ''.join(i)   #由于url1中的元素为列表类型，需转换成字符成类型方可进一步操作，其实不需要，只要将url1.append([tag.get('src')]) 中[]去掉即可，pass
        path = root + schoolname[url1.index(i)*2] + ".png"    #文件路径、名称
        #print(path) 调试用，pass
        try:
            if not os.path.exists(root):
                os.mkdir(root)
            if not os.path.exists(path):
                r = requests.get(i)
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print('文件保存成功')
            else:
                print('文件已存在')
        except:
            print('爬取失败')
          
def main():
    url = 'https://www.shanghairanking.cn/rankings/bcur/2020'
    demo = getHTMLText(url)
    ulist = []
    url1 = [] 
    schoolname = []
    jiexi(ulist,demo,url1,schoolname)
    download(url1,schoolname)

main()

最终效果：
关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称） - 文章图片

内容总结

以上是互联网集市为您收集整理的关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）全部内容，希望文章能够帮你解决关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/601603.html

来源：【匿名】

【上一篇】18个网站的Python爬虫登录示例 | 开源项目推荐【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）】教程文章相关的互联网学习教程文章

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

今天终于把脚本弄好了，虽然是东拼西凑的，总算有点成就感啦，下面把代码帖这～package studyjava;import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java...

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

这两天发现了一个叫看知乎的站点。是知乎的苏莉安做的，当中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫，改用nodejs 进行实现一下。体验一下强大的 Node.js。假设之前没实用过 JavaScript，最好还是到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习，高速熟悉一下基本的语法，有其它语言基础一天时间足够。有基本的了解后。就会发现 JavaScript 的两大特点：使用基于原型（prototype）的方...

python3.4爬虫批量下载音乐【图】

最近在学习python，使用的版本为python3.4，开发环境为使用Pydev插件的eclipse。正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错，决定使用python批量下载下来。 1、音乐地址经过分析，页面嵌入的虾米播放器中的地址如下，后面以逗号分隔的字符为音乐的id，如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><span style="font-size:14px;"> <embed src="http://www.xiami....

使用爬虫批量下载图片【代码】【图】

import requestsfrom bs4 import BeautifulSoupimport reurl=‘http://www.quanjing.com/‘headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3253.3 Safari/537.36‘}response=requests.get(url=url,headers=headers)response.encoding=‘utf-8‘html=response.textsoup=BeautifulSoup(html,‘html.parser‘)imgs_src=soup.find_all(‘img‘,src=re.compile(‘...

nodejs制作爬虫实现批量下载图片【图】

今天想获取一大批猫的图片，然后就在360流浪器搜索框中输入猫，然后点击图片。就看到了一大波猫的图片： http://image.so.com/i?q=%E7%8... ，我在想啊，要是审查元素，一张张手动下载，多麻烦，所以打算写程序来实现。不写不知道，一写发现里面还是有很多道道的。1. 爬取图片链接因为之前也写过nodejs爬虫功能（参见：NodeJS制作爬虫全过程），所以觉得应该很简单，就用cheerio来处理dom啦，结果打印一下啥也没有，后来查看源...

python爬虫[一]批量下载妹子图【图】

煎蛋网上的妹子图专题有着质量很高的美女http://www.gxlcms.com/css/css-rwd-images.html" target="_blank">图片，今天分享一下用 python 批量下载这些妹子图的方法。需要了解的知识和工具：#1 需要了解 python 的基本语法，对这篇文章来说，你只要知道如何操作 list ,for……in……，如何定义函数就够了。网页抓取、分析和保存文件的函数边用边了解。#2 需要安装第三方库 BeautifulSoup4。使用 pip 安装是很便利的方法。最新版本的...

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

代码如下:#coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src): try: url = urllib2.urlopen(src) content = url.read()#.decode(utf-8) return content except: print error return Nonedef pictype(content): 通过抓取网站导航栏，获得网站的图片类型返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称...

Python系列爬虫之批量下载抖音短视频【更新版】【图】

前言 Python批量下载抖音视频一文提供的脚本失效之后，仍然很多人来询问原因。一个个回复实在麻烦，看在大家如此喜欢这个脚本的份上，不如更新一波，得个自在。开发工具 Python版本：3.6.4 相关模块： requests模块； bs4模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。更新内容（1）接口请求返回403状态码报错修复 403状态码即服务器拒绝或禁止访问。应该是因为有人滥...

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

五、批量下载图片 1. 调用库函数【通过链接下载图片有多种方法，本文采用其中一种】 from builtins import len, hasattr, range # 提供对Python的“内置”标识符的直接访问 import re # 正则表达式 import urllib.request, urllib.error # 提供了一系列用于操作URL的功能 import requests # Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比，Requests更加方便，用来下载图片...

Python系列爬虫之百行代码批量下载抖音短视频【图】

前言再次更新一下抖音视频批量下载脚本。就不一一回复了~ 开发工具 Python版本：3.6.4 相关模块： requests模块； ipaddress模块； click模块；以及一些Python自带的模块。 Nodejs版本： 10.7.0-x64 环境搭建 Step1：安装Python并添加到环境变量，pip安装需要的相关模块； Step2：安装nodejs(小白一路next就行，相关文件里提供了安装包，或者自己去官网下载)。原理简介第一个接口： https://api.amemv.com/aweme/v1/discove...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）

关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）

内容导读

内容图文

内容总结

内容备注

内容手机端

【关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）】教程文章相关的互联网学习教程文章

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

python3.4爬虫批量下载音乐【图】

使用爬虫批量下载图片【代码】【图】

nodejs制作爬虫实现批量下载图片【图】

python爬虫[一]批量下载妹子图【图】

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

Python系列爬虫之批量下载抖音短视频【更新版】【图】

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

Python系列爬虫之百行代码批量下载抖音短视频【图】

关于Python网络爬虫与信息提取，除了提取最好大学排名字段，还可以批量下载图片（同步学校名称）【代码】【图】

Python爬虫教程：python批量下载整站高清大图【代码】【图】

Python爬虫项目实战：看我用爬虫批量下载网站图片【代码】【图】

python爬虫——批量下载百度图片【图】

python爬虫公众号所有信息，并批量下载公众号视频【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程