首页 / 爬虫 / 爬虫3-python爬取非结构化数据下载到本地

爬虫3-python爬取非结构化数据下载到本地

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫3-python爬取非结构化数据下载到本地，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1184字，纯文字阅读大概需要2分钟。

内容图文

urlretrieve方法

通过上节爬虫2，可以将结构化数据存入mysql等数据库，但脚本中还存在非结构化数据：

# print(content.xpath('//*[@dd_name="大图"]/img/@src').pop())   # 图片

python的urlretrieve方法可实现将远程数据下载本地：

#url              下载链接
#filename         指定保存本地路径文件名
#reporthook       回调函数，默认缺省
#data             post到服务器的数据，默认缺省
urlretrieve(url, filename=None, reporthook=None, data=None)

实践

# coding=utf-8
import requests
from lxml import etree

# 1爬取网页信息
url = 'http://product.dangdang.com/29148702.html'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/69.0.3497.81 Safari/537.36 Maxthon/5.3.8.2000 "
    }
aa = requests.get(url, headers=headers)
message = aa.content.decode('gbk')
content = etree.HTML(message)                                 # message是str格式，需要先转成HTML格式

# 1.2解析图片信息
print(content.xpath('//*[@dd_name="大图"]/img/@src').pop())   # 图片

#运行结果
http://img3m2.ddimg.cn/33/28/29148702-1_w_23.jpg

# 这时用urlretrieve来处理，可以下载到本地当前目录下
url_img=content.xpath('//*[@dd_name="大图"]/img/@src').pop()
urllib.request.urlretrieve(url_img,"test_img.jpg")

爬虫3-python爬取非结构化数据下载到本地 - 文章图片

内容总结

以上是互联网集市为您收集整理的爬虫3-python爬取非结构化数据下载到本地全部内容，希望文章能够帮你解决爬虫3-python爬取非结构化数据下载到本地所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/615621.html

来源：【匿名】

【上一篇】Python爬虫入门实战项目--爬取新笔趣阁小说【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫3-python爬取非结构化数据下载到本地】教程文章相关的互联网学习教程文章

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

一、下载一只猫import urllib.requestresponse = urllib.request.urlopen("http://cdn.duitang.com/uploads/item/201111/24/20111124222137_wHYwc.jpg") cat_img = response.read()with open(‘cat_0.jpeg‘, ‘wb‘) as f:f.write(cat_img) urlopen()中的url可以是string，也可以是request object，因此可以是：import urllib.requestreq = urllib.request.Request("http://cdn.duitang.com/uploads/item/201111/24/2011112422213...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

下载python爬虫需要的库文件bs4

新建文件 requirements.txt修改requirements.txt文件内容如下：# need to install module bs4pymongorequestsjson然后执行命令：sudo pip install -r requirements.txt 原文：https://www.cnblogs.com/rohens-hbg/p/14445957.html

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第一部分：7000本电子书下载网络爬虫完整案例演示。配套视频课程详见[51CTO学院]章节目录：（1）页面分析1：列表页-图书清单（2）页面分析2：详情页-下载地址（3）程序演示1：导出详情页（4）程序演示2：批量图书下载（5）执行结果1：批量导出下载地址文件（7）执行结果2：批量图书下载二、正文3.1 列表页：图书清单页3.2 详情页：下载地址页3.3.1 程序演示-导出详情页链接3.3.2...

一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x

import reimport urllib2headers = {‘User-agent‘ : ‘Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0‘}with open(‘C:\\Users\\yaxin\\Desktop\\1.txt‘,‘r‘) as file: #预先将网页源码保存到1.txt里 data = file.read()pattern = re.compile(r"<img src=‘(.*?)jpg") #匹配图片地址need = pattern.findall(data)count = 0for i in need: i = i + ‘jpg‘ #补全网址 with open(‘C...

爬虫所需要的文档和自动化文本driver下载地址,以及制作词云的文档等

Scrapy1.7.3文档webdriver文档webdriver下载地址Chrom各版本下载地址词云1.5文档selenium中文文档其他好的文档可以在这里查询有不定时更新原文：https://www.cnblogs.com/superSmall/p/11543352.html

Python系列爬虫之制作酷狗和QQ音乐下载器【图】

前言在此之前，我们制作了网易云音乐下载器。但是网易云音乐无版权的歌曲利用那个下载器也是无法下载的。这时候就需要再搞一波事情。开发工具Python版本：3.6.4相关模块：requests模块以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。原理简介QQ音乐下载器：分析网页数据之后可以找到下面三个接口：第一个接口需要根据歌曲名构造完整链接来搜索需要下载的歌曲信息；第二个接口需要根据...

Python学习---网页爬虫[下载图片]【代码】【图】

爬虫学习--下载图片1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确，下载的越多 4.利用urllib.urlretrieve()下载图片，并且可以重新命名，利用%S 5.应该是运营商有所限制，所以未能下载全部的图片，不过还是OK的URL分析：源码：#coding=utf-8 import re import urllib def getHtml(url):page=urllib.urlopen(url)html=page.read();return html def getImage(html)...

爬虫爬取图片并下载

import requests import re import os import time"""获取主网页""" web_page = ‘https://www.vmgirls.com/‘ headers = {‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘ } urls_response = requests.get(web_page,headers=headers) urls_html = urls_response.text"""解析主主网页获取下一层网页""" all_urls = re.findall(‘https...

python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙，主要是备忘容易出错的地方。供自己以后查阅。#图片下载import reimport urllib.request #python3中模块名和2.x（urllib）的不一样site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘page=urllib.request.urlopen(site)html=page.read()html=html.decode(‘utf-8‘) #读取下来的网页源码需要转换成utf-8格式reg=r‘src="//(gd.*?jpg)‘imgre=re.compile(reg)imgl...

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

今天终于把脚本弄好了，虽然是东拼西凑的，总算有点成就感啦，下面把代码帖这～package studyjava;import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java...

httpclient下载网页源码---java基础爬虫【代码】【图】

有关httpclient：HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性，它不仅使客户端发送Http请求变得容易，而且也方便开发人员测试接口（基于Http协议的），提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会更加深入。org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别Commons的HttpClient项...

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

这两天发现了一个叫看知乎的站点。是知乎的苏莉安做的，当中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫，改用nodejs 进行实现一下。体验一下强大的 Node.js。假设之前没实用过 JavaScript，最好还是到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习，高速熟悉一下基本的语法，有其它语言基础一天时间足够。有基本的了解后。就会发现 JavaScript 的两大特点：使用基于原型（prototype）的方...

（一）爬虫之网页下载【代码】【图】

1，相关知识　　robots.txt: 一些网站会定义robots.txt文件（https://www.example.com/robots.txt），规定了网页爬取的相关限制，查看其内容，遵守规则可以避免过早IP被封。　　　　下面为知乎robots.txt部分内容（https://www.zhihu.com/robots.txt）。（disallow 表示不允许爬取的url；Crawl-delay：10，表示两次抓取之间需要10秒延迟）　　sitemap:有的robots.txt的html源码中会给出网站的sitemap，获得网站的sitemap，可以了解...

python 站点爬虫下载在线盗墓笔记小说到本地的脚本

近期闲着没事想看小说，找到一个全是南派三叔的小说的站点，决定都下载下来看看，于是动手，在非常多QQ群里高手的帮助下（本人正則表達式非常烂。程序复杂的正则都是一些高手指导的），花了三四天写了一个脚本须要 BeautifulSoup 和 requests 两个库（我已经把凝视写得尽量具体）这个程序的运行速度非常慢，求高手告诉我优化的方法。！#-*-coding:utf8-*-from bs4 import BeautifulSoup import requests import re import os#打开网...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 爬虫3-python爬取非结构化数据下载到本地

爬虫3-python爬取非结构化数据下载到本地

内容导读

内容图文

urlretrieve方法

实践

内容总结

内容备注

内容手机端

【爬虫3-python爬取非结构化数据下载到本地】教程文章相关的互联网学习教程文章

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

下载python爬虫需要的库文件bs4

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x

爬虫所需要的文档和自动化文本driver下载地址,以及制作词云的文档等

Python系列爬虫之制作酷狗和QQ音乐下载器【图】

Python学习---网页爬虫[下载图片]【代码】【图】

爬虫爬取图片并下载

python3 网页爬虫图片下载无效链接处理 try except

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

httpclient下载网页源码---java基础爬虫【代码】【图】

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

（一）爬虫之网页下载【代码】【图】

python 站点爬虫下载在线盗墓笔记小说到本地的脚本

PYTHON - 相关标签

爬虫 - 相关标签

数据 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程