首页 / 爬虫 / 阿里P8大佬手把手教你使用Python网络爬虫获取音效信息

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了阿里P8大佬手把手教你使用Python网络爬虫获取音效信息，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3185字，纯文字阅读大概需要5分钟。

内容图文

/1 前言/

生活中到处有各种各样的声音。在做网页时，没有声音的网页显得没有灵魂，特别是游戏网页，没有声音就体会不了其中精彩的打斗效果，会感到特别的无趣。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

/2 项目目标/

今天教大家如何用Python网络爬虫去获取音效。

/3 项目准备/

软件：PyCharm

需要的库：requests、lxml、ssl

网站如下：

https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_{}.html

/4 项目分析/

1、如何找到音效地址？

F12右键检查，找到对应的音效的地址，出现登录画面直接叉掉就可以了。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

2、如何多网页访问？

观察网址的变化（一般取前三页）：

https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_1.html
https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_2.html
https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_3.html

发现点击下一页时，zonghe_0_0_0_0_0_0{}每增加一页自增加1，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

3、如何解除ssl验证？

因为这个网址是https，需要导入一个ssl模块，忽略ssl验证。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

4、如何获取Cookie？

右键检查,找到NetWork，随便复制一个Cookie即可：

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

/5 项目实现/

1、定义一个class类继承object，定义init方法继承self，主函数main继承self。导入需要的库和网址，代码如下所示。

import requests
from lxml import etree
from fake_useragent import UserAgent
import ssl


class  Panda(object):
    def __init__(self):
        pass
    def main(self):
        pass


if __name__ == '__main__':
    imageSpider =  Panda()
    imageSpider.main(

2、导入网址和构造请求头。

 self.url = "https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_{}.html" #/zhuanchang/:搜索的名字的拼音缩写
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
        }

3、发送请求获取响应, 页面回调，方便下次请求。

    def get_page(self, url):
        res = requests.get(url=url, headers=self.headers)
        html = res.content.decode("utf-8")
????????return?html

4、xpath解析页面数据。

这里我们先获取父节点，再通过for循环遍历，找到对应的子节点（音效地址）。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

one = parse_html.xpath('//div[@class="b-box"]//dl')
    for li in one:
        lis_imges = li.xpath(".//audio//source/@src")[0].strip()
        who = li.xpath(".//dt//a/text()")[0].strip()

获取到后，发现地址表示完整的地址，需要对网站进行补全，获取真正访问的地址。

 mp3 = "https:" + lis_imges

5、运行的结果，如下图所示：

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

6、对音效地址发生请求，获取对应音效a标签的text()作为命名，写入文件。

dirname = "./音效/" + who + '.mp3'
html2 = requests.get(url=mp3, headers=self.headers).content
with open(dirname, 'wb') as f:
    f.write(html2)
    print("\n%s下载成功" % who))

7、调用方法，实现功能。

html?=?self.get_page(url)
self.parse_page(html)

/6 效果展示/

1、点击绿色小三角运行输入起始页，终止页，如1和2，获取1页信息即可。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

2、运行程序后，结果显示在控制台，如下图所示。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

3、将运行结果保存在本地，如下图所示。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

4、双击文件，即可播放。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

/7 小结/

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，解除登录限制下载音效，存入文档。

3、按照步骤去实现，实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解得更加深刻。

4、希望通过这个项目能够了解到，对于HTTPS网站，解除ssl验证的有大致的了解。

5、如果需要本文源码的话，请私信回复“音效”两个字进行获取，觉得不错，记得给个赞噢。

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

结尾

需要下面的资料的，或者更多课件资源，可以私信我“资料”领取！！！

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息 - 文章图片

内容总结

以上是互联网集市为您收集整理的阿里P8大佬手把手教你使用Python网络爬虫获取音效信息全部内容，希望文章能够帮你解决阿里P8大佬手把手教你使用Python网络爬虫获取音效信息所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/597434.html

来源：【匿名】

【上一篇】Python爬虫如何去抓取qq音乐的歌手数据？【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【阿里P8大佬手把手教你使用Python网络爬虫获取音效信息】教程文章相关的互联网学习教程文章

python 利用爬虫获取页面上下拉框里的所有国家【代码】

前段时间，领导说列一下某页面上的所有国家信息，话说这个国家下拉框里的国家有两三百个，是第三方模块导入的，手动从页面拷贝，不切实际，于是想着用爬虫去获取这个国家信息，并保存到文件里。下面是具体的代码，写的也是比较简单，利用Selenium操作页面，获取下拉国家列表的信息，并保存到文件里from selenium import webdriver import xlwt driver = webdriver.Chrome(‘C:\Program Files (x86)\Google\Chrome\Application\chro...

爬虫 --- 获取图片并处理中文乱码【代码】

爬取网站图片运用requests模块处理url并获取数据,etree中xpath方法解析页面标签,urllib模块urlretrieve保存图片,"iso-8859-1"处理中文乱码 #爬取图片并且处理乱码import requests from lxml import etree #urlretrieve可以直接保存图片from urllib import request url = "http://pic.netbian.com/4kqiche/" headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...

页面爬虫(获取其他页面HTML)加载到自己页面示例

复制代码代码如下://前台 <div id="showIframe"></div> $(document).ready(function() { var url = "@Url.Action("GetPageHtml","Catalog")"; $.ajax({ url: url, type: "POST", dataType:"json", data: { url: "http://www.baidu.com" }, error: function () { alert("bbb"); }, success: function (data) { $("#showIframe").append(data); //$("#showIframe div").hide(); //$("#showIframe>#container").show(); //$("#showIf...

Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' for column 'new' at row 1"的解决办法

由于一直使用python3进行编码，在使用Python2时，将爬虫数据连接数据库进行存储时，出现如上的报错，经查资料是数据库编码问题。如下转自：http://www.cnblogs.com/liuzhixin/p/6274821.html 的博客，在此感谢博主的慷慨分享之情。错误原因：我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ，这对应UTF-8编码格式中的4字节编码（UTF-8编码规范）。正常的汉字一般不会超过3个字节，为什么为出现4个字节呢？实际上是它对应的是...

爬虫可视化点选配置工具之获取鼠标点选元素【代码】【图】

前言前面两章已经介绍怎么开发一个chrome插件和怎么使用vue搭建一个弹出框的chrome插件，这一章来实现页面元素选择的功能，效果如下图，鼠标放到元素上，元素会高亮：主要实现思路，创建一个和页面一样宽高的蒙层，监听蒙层的鼠标移动事件，再使用elementFromPoint函数来获得当前鼠标所在位置的页面元素，具体实现如下：shelter.js这是主函数 import $ from 'jquery'; import validateSelect from './validateSelected'; import is...

使用webcollector爬虫技术获取网易云音乐全部歌曲【代码】【图】

最近在知乎上看到一个话题，说使用爬虫技术获取网易云音乐上的歌曲，甚至还包括付费的歌曲，哥瞬间心动了，这年头，好听的流行音乐或者经典老歌都开始收费了，只能听不能下载，着实很郁闷，现在机会来了，于是开始研究爬虫技术，翻阅各种资料，最终选择网友们一致认为比较好用的webcollector框架来实现。首先，我们来认识一下webcollector,webcollector是一个无需配置，便于二次开发的爬虫框架，它提供精简的API，只需少量代码即可...

java获取qq邮箱的网络爬虫【代码】

代码如下package Game; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.regex.Matcher; import java.util.regex.Pattern;public class Main {public static void main(String[] args) throws IOException {File file=new File("D:\\index.html");BufferedReader buf=new BufferedReader(new InputStreamR...

Python爬虫模拟登录京东获取个人信息【代码】

原文 http://www.xgezhang.com/python_crawler_jingdong.html先上我的代码。参考了上面链接的文章# -*- coding: utf-8 -*- # !/usr/bin/python import os import urllib2 import urllib import cookielib import re import sys from bs4 import BeautifulSoup ‘‘‘ 编码方式的设置,在中文使用时用到中文时的处理方式 ‘‘‘ default_encoding = "utf-8" if sys.getdefaultencoding() != default_encoding: reload(sys) sys...

黑马程序员正则表达式【匹配、切割、替换】【获取:Pattern & Matcher】【网页爬虫（蜘蛛）】【图】

---------------------------------------- android培训、java培训、期待与您交流！ ------------------------------------概念：正则表达式：即符合一定规则的表达式作用：专门用于操作字符串特点：用一些特定的符号来替代一些代码操作，简化书写学习正则表达式就是在学习指定其规则的符号的使用,即如何定义规则，详细方法参见API文档Pattern中正则表达式的规则组成优点：简化字符串操作步骤弊端：符号定义多时，正则越长，阅读...

Python爬虫之模拟登录豆瓣获取最近看过的电影【图】

哈哈哈，模拟登录成功啦啦啦啦啦~~~~~重要的事本来要说三遍，不过还是算了==先上效果图：众所周知，很多网站都设置了登录之后才能获取查看页面的权利，因此模拟登录成了爬取信息的第一步，这一步成功了，嘿嘿，just do it!好，废话不多说，直接说重点：首先，你应该要了解网站登录的流程以及你需要post的信息，以豆瓣为例：source:movie redir:https://movie.douban.com/mine?status=collect form_email:username form_password:pa...

爬虫获取mobike共享单车信息【代码】

背景：端午节假期的时候参加了学校的数学建模比赛，题目是关于共享单车的供需匹配问题，需要获得共享单车的数量和时空分布情况。在苦苦找寻数据无果的情况下决定自己用爬虫对天津地区的mobike进行统计。在网上找到了这篇爬虫的代码，本着少造轮子的基本原则，我选择了这个代码进行统计，这里记录一下历程，方便日后查阅。先上原作者github地址：git clone https://github.com/derekhe/mobike-crawler。python3环境，爬取的是微信...

Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据【代码】【图】

在涉及地址服务时，经常需要用到地址信息的获取，而行政区划可能不定期的发生变化，所以我们需要获取最新的行政区划信息。因行政区划数据量较大，Java中可以使用Jsoup进行数据的获取、处理。大家经常用到的行政区划数据，可从中华人民共和国民政部网站上获取，响应请求链接如下所示：http://www.mca.gov.cn/article/sj/xzqh/2019/界面如下图所示：截至当前对应的行政区划数据请求链接为：http://www.mca.gov.cn/article/sj/xzqh/20...

Python2爬虫代码之获取金融品种行情数据【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*- import requests #使用requests包方便 import json #导入json模块 import time #导入时间模块 # 以下是某个新闻网站的行情api，返回json格式数据 data = requests.get("https://forexdata.wallstreetcn.com/real?en_prod_code=XAGUSD,AUTD,XAUUSD,USOIL,US10YEAR,GBPUSD,EURUSD,USDJPY,USDCNH,USDOLLARINDEX,UK100INDEX,FRA40INDEX,GER30INDEX,000001,HKG33INDEX,JPN225INDEX&field...

Selenium+Browsermob-Proxy 爬虫-获取浏览器Network请求和响应（新示例）【代码】【图】

之前有写过一篇文章，使用Selenium+Browsermob-Proxy 获取浏览器Network请求和响应（地址：https://blog.csdn.net/qq_32502511/article/details/101536325），发现评论里面有很多同志都说获取不到内容或者对HTTPS请求不行，今天在这里重新写个简单的例子给大家参考，这里以模拟登陆华润通H5页面为例。华润通页面地址：https://cloud.huaruntong.cn/web/m/#/homePage （注意：说HTTPS不行的同志注意了，这里演示的网址也是个HTTPS的...

Goutte怎么获取a标签里面的url,或者好用的PHP爬虫库，谢谢

Goutte怎么获取a标签里面的url？或者好用的PHP爬虫库，谢谢[],'link' => [],'content' => [],'source' => [],'date' => [],];public function __construct(){try {$this->_client = new Client();$this->_crawler = $this->_client->request('GET', 'http://www.ningshan.gov.cn/Category_90/Index.aspx');// $client->getClient()->setDefaultOption('config/curl/'.CURLOPT_TIMEOUT, 10);} catch (Exception $e) {throw ...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 阿里P8大佬手把手教你使用Python网络爬虫获取音效信息

阿里P8大佬手把手教你使用Python网络爬虫获取音效信息

内容导读

内容图文

/1 前言/

/2 项目目标/

/3 项目准备/

/4 项目分析/

1、如何找到音效地址？

2、如何多网页访问？

3、如何解除ssl验证？

4、如何获取Cookie？

/5 项目实现/

2、导入网址和构造请求头。

3、发送请求 获取响应, 页面回调，方便下次请求。

4、xpath解析页面数据。

5、运行的结果，如下图所示：

6、对音效地址发生请求，获取对应音效a标签的text()作为命名，写入文件。

7、调用方法，实现功能。

/6 效果展示/

/7 小结/

结尾

内容总结

内容备注

内容手机端

【阿里P8大佬手把手教你使用Python网络爬虫获取音效信息】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

网络 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

3、发送请求获取响应, 页面回调，方便下次请求。