首页 / PYTHON / 20行Python代码爬取100W多条音频文件素材~

20行Python代码爬取100W多条音频文件素材~

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了20行Python代码爬取100W多条音频文件素材~，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2260字，纯文字阅读大概需要4分钟。

内容图文

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：961562169

请求网页

import requests
url = 'http://sc.chinaz.com/yinxiao/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

20行Python代码爬取100W多条音频文件素材~ - 文章图片 ?
但是返回数据有中文乱码，编码出现了问题，所以咱们只需要转码一下就可以了

response.encoding = response.apparent_encoding

20行Python代码爬取100W多条音频文件素材~ - 文章图片 ?

解析数据

import parsel
selector = parsel.Selector(response.text)
urls = selector.css('#musiclist .n1::attr(thumb)').getall()
titles = selector.css('#musiclist .z a::attr(alt)').getall()
data = zip(urls, titles)
for i in data:
    print(i)

20行Python代码爬取100W多条音频文件素材~ - 文章图片 ?

保存数据

response_2 = requests.get(url=download_url, headers=headers)
filename = '路径' + title + '.mp3'
with open(filename, mode='wb') as f:
    f.write(response_2.content)

20行Python代码爬取100W多条音频文件素材~ - 文章图片 ?
一页的音频文件就都保存到本地文件了

多页爬取音频文件代码

import requests
import parsel
for page in range(1, 603):
    url = 'http://sc.chinaz.com/yinxiao/index_{}.html'.format(page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    response.encoding = response.apparent_encoding
    selector = parsel.Selector(response.text)
    urls = selector.css('#musiclist .n1::attr(thumb)').getall()
    titles = selector.css('#musiclist .z a::attr(alt)').getall()
    data = zip(urls, titles)
    for i in data:
        print(i)
        download_url = i[0]
        title = i[1]
        response_2 = requests.get(url=download_url, headers=headers)
        filename = '路径' + title + '.mp3'
        with open(filename, mode='wb') as f:
            f.write(response_2.content)

20行Python代码爬取100W多条音频文件素材~ - 文章图片 ?
每页40个文件，一共是602页数据，一共大概是2W多个音频文件素材，这边咱们就不等了就下载了一千多个文件，主要下载多了也占硬盘内存~ 代码还是有很多可以优化的地方~

内容总结

以上是互联网集市为您收集整理的20行Python代码爬取100W多条音频文件素材~全部内容，希望文章能够帮你解决20行Python代码爬取100W多条音频文件素材~所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/623558.html

来源：【匿名】

【上一篇】在anaconda中安装python3.9.0 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【20行Python代码爬取100W多条音频文件素材~】教程文章相关的互联网学习教程文章

python代码项目篇-银行三次登录锁定测试

cat account.txt ——用户密码名册jack pass1marry pass2natasha pass3touch lock.txt ——用户锁文件cat login.py#!/usr/bin/env pythonimport tab#put account.txt infomationf = file(‘account.txt‘)account_list = f.readlines()f.close()f = file(‘lock.txt‘)lock_list = []for i in f.readlines(): line = i.strip() lock_list.append(line)f.close()for i in range(3): userlogin ...

一些 Python 代码加速运行的技巧进行整理【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。基本环境配置版本：Python3系统：Windows 需要安装：1.JDK - Download JDK，Appium要求用户必须配置JAVA环境, 否则启动Seesion报错。2.Appium - Download Appium, 安装过程请自行搜索。3.Android SDK - Download SDK4. Selenium - 建议使用低版本的Python Selenium库，在Chrome高版本可能会报错。例如： ...

Python爬取博客园新闻代码【代码】【图】

核心模块：requests ：安装指令 pip3 install requestsBeautifulSoup :安装指令 pip3 install beautifulsoup4代码：import requests import bs4 import osresponse=requests.get(‘https://news.cnblogs.com/‘) response.encoding=response.apparent_encodingfrom bs4 import BeautifulSoup soup=bs4.BeautifulSoup(response.text,features=‘html.parser‘) newslist=soup.find_all(‘div‘,class_="content") #print(newslist)f...

用Python写的图片蜘蛛人代码

复制代码代码如下:#coding=utf-8 import os import sys import re import urllib URL_REG = re.compile(r‘(http://[^///]+)‘, re.I) IMG_REG = re.compile(r‘<img[^>]*?src=([/‘"])([^/1]*?)/1‘, re.I) def download(dir, url): ‘‘‘下载网页中的图片 @dir 保存到本地的路径 @url 网页url ‘‘‘ global URL_REG, IMG_REG m = URL_REG.match(url) if not m: print ‘[Error]Invalid URL: ‘, url return host = m.group(1)...

在RPA中优雅地写Python代码（一）【代码】

人生苦短，我用Python！Python 是一种代表简单思想的语言，其语法相对简单，很容易上手。不过，如果就此小视 Python 语法的精妙和深邃，那就大错特错了。在RPA设计中，难免少不了一些简单的代码编写，本文精心筛选了最能展现 Python 语法之精妙的几个知识点，若是能够融会贯通、灵活使用，必将使代码更为精炼、高效，同时也会极大提升代码 B 格，使之看上去更老练，读起来更优雅。1. for - else什么？不是说if 和 else 才是原配吗...

Python外壳：代码结构

使用zip()并行迭代days = [‘Monday‘, ‘Tuesday‘, ‘Wednesday‘]>>> fruits = [‘banana‘, ‘orange‘, ‘peach‘]>>> drinks = [‘coffee‘, ‘tea‘, ‘beer‘]>>> desserts = [‘tiramisu‘, ‘ice cream‘, ‘pie‘, ‘pudding‘]>>> for day, fruit, drink, dessert in zip(days, fruits, drinks, desserts):... print(day, ": drink", drink, "- eat", fruit, "- enjoy", dessert)...Monday : drink coffee - eat banan...

字节转成k,M,G等python代码【代码】

def bytes2human(n):symbols = (‘K‘, ‘M‘, ‘G‘, ‘T‘, ‘P‘, ‘E‘, ‘Z‘, ‘Y‘)prefix = {}for i, s in enumerate(symbols):prefix[s] = 1 << (i + 1) * 10for s in reversed(symbols):if n >= prefix[s]:value = float(n) / prefix[s]return ‘%.1f%s‘ % (value,s)return ‘%sB‘ % n 原文：https://www.cnblogs.com/superniao/p/10554351.html

python代码编辑器PyCharm快捷键补充【图】

使用Pycharm的筒子们都知道查找快捷键是：Ctrl+F,你们知道替换吗？查了好久，都没有替换的快捷键，偶然发现了竟然是，Ctr+R 个人觉得特别有用的：替换：Ctrl+R 删除当前行 CTRY Y: 复制当前行：Ctrl+D ALT F7: 查找哪些地方使用了选中的方法。 ALT UP:移到上一个方法 ALT DOWN:移到下一个方法 CTRL SHIFT UP: 将当前行上移一行 CTRL SHIFT UP: 将当前行下移一行其他常用的一...

用Python自动清理电脑内重复文件，只要10行代码就够了【代码】

给定一个文件夹，使用Python检查给定文件夹下有无文件重复，若存在重复则删除主要涉及的知识点有：os模块综合应用glob模块综合应用利用filecmp模块比较两个文件步骤分析该程序实现的逻辑可以具化为：遍历获取给定文件夹下的所有文件，然后通过嵌套循环两两比较文件是否相同，如果相同则删除后者。实现问题的关键就变成了如何判断两个文件是否相同？在这里我们可以使用filecmp模块，来看看官方的介绍文档：filecmp.cmp(f1, f2, shal...

Python - 使用Pylint检查分析代码【代码】【图】

1-简介Home Page : https://www.pylint.org/检查语法错误，是否遵守编码风格标准、潜在的问题等；支持自定义配置：例如显示或隐藏特定的警告，并且可以通过编写插件来添加功能；使用Pylint检查文件时，需要直接将模块或包名作为参数；可以在命令行以脚本方式运行（pylint），也可作为模块（pylint.lint）导入，建议作为命令行工具使用； 2-帮助信息帮助信息：在命令行下运行“pylint -h”或“pylint --help”获取帮助信息；常用命令...

python代码进入谷歌浏览器手机模式【代码】

from selenium import webdrivermobileEmulation = {‘deviceName‘ :‘Galaxy S5‘}option = webdriver.ChromeOptions()option.add_experimental_option(‘mobileEmulation‘,mobileEmulation)charome = webdriver.Chrome(options=option）网上找到的都是这种方式，但这种方法有些弊端，这个没有真正进入toggle device toolbar模式，导致后续有些操作无法实现。目前还没找到方法去：模拟打开开发者模式，再点击oggle device tool...

Redis代码——Python篇【代码】

需要安装的库：redisimport redis# 连接数据库 r = redis.StrictRedis(host="localhost", port=6379, password="密码")# 方法1：根据数据类型的不同，调用响应的方法 # 写 r.set("p1", "good") # 读print(r.get("p1")) 原文：https://www.cnblogs.com/Rain2017/p/10335083.html

Python基本图形绘制练习题代码记录【代码】

样例Python蛇#PythonDraw.py #调用turtle库import turtle #设置窗口大小（窗口长度、窗口宽度、窗口距离屏幕的距离） turtle.setup(650,350,200,200) #penup抬起画笔turtle.penup() #fd向后画250个像素的直线 turtle.fd(-250) #pendown放下画笔turtle.pendown() #pensize画笔尺寸为25个像素 turtle.pensize(25) #pencolor画笔颜色函数 turtle.pencolor("purple") #seth函数全程为setheading(angle)：控制海龟角度 turtle.seth(-40)...

怎么让你的代码更Pythonic?光有技巧可不行，你还需要看这些

写代码如同写文章，好的文章是反复修改出来的，代码也同样是反复的重构出来的。今天给大家分享下，怎么从一个编程学习者变为一个程序猿（程序媛）！起码不要让别人一看你的代码就知道你是个小菜鸟！我们通常写一个代码，必然会经过一个简单-难-简洁的过程，那么在重构的过程中需要注意哪些呢？1、代码可以正常运行首先必然要保证，代码可以正常运行！不论你是直接按逻辑写下来还是函数式编程，必须先能实现你的代码功能，可以正常...

数论：任意数求原根（python代码）【代码】【图】

# 用辗转相除求最大公因子def gcd(a,b):r=a%bwhile(r!=0):a=bb=rr=a%breturn b# 欧拉函数-暴力循环版def euler(a):count=0for i in range(1,a):if gcd(a,i)==1:count+=1return countdef order(a,n,b): # 输出b在mod(a)中的阶 # n是mod(a)群的阶p=1while(p<=n and (b**p%a!=1)):p+=1if p<=n:return pelse:return -1# 求任意数原根def primitive_root(a):n=euler(a)prim=[]for b in range(2,a):if order(a,n,b)==n:prim.append(b...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 20行Python代码爬取100W多条音频文件素材~

20行Python代码爬取100W多条音频文件素材~

内容导读

内容图文

前言

相关环境配置

请求网页

解析数据

保存数据

多页爬取音频文件代码

内容总结

内容备注

内容手机端

【20行Python代码爬取100W多条音频文件素材~】教程文章相关的互联网学习教程文章

python代码项目篇-银行三次登录锁定测试

一些 Python 代码加速运行的技巧进行整理【图】

Python爬取博客园新闻代码【代码】【图】

用Python写的图片蜘蛛人代码

在RPA中优雅地写Python代码（一）【代码】

Python外壳：代码结构

字节转成k,M,G等python代码【代码】

python代码编辑器PyCharm快捷键补充【图】

用Python自动清理电脑内重复文件，只要10行代码就够了【代码】

Python - 使用Pylint检查分析代码【代码】【图】

python代码进入谷歌浏览器手机模式【代码】

Redis代码——Python篇【代码】

Python基本图形绘制练习题代码记录【代码】

怎么让你的代码更Pythonic?光有技巧可不行，你还需要看这些

数论：任意数求原根（python代码）【代码】【图】

PYTHON - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程