首页 / PYTHON / 使用Python / urllib / beautifulsoup从URL批量下载文本和图像？

使用Python / urllib / beautifulsoup从URL批量下载文本和图像？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python / urllib / beautifulsoup从URL批量下载文本和图像？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1647字，纯文字阅读大概需要3分钟。

内容图文

使用Python / urllib / beautifulsoup从URL批量下载文本和图像？

我一直在浏览这里的几篇帖子,但我无法用Python从批量下载图片和文本来给定URL.

import urllib,urllib2
import urlparse
from BeautifulSoup import BeautifulSoup
import os, sys

def getAllImages(url):
    query = urllib2.Request(url)
    user_agent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 1.0.3705)"
    query.add_header("User-Agent", user_agent)

    page = BeautifulSoup(urllib2.urlopen(query))
    for div in page.findAll("div", {"class": "thumbnail"}):
        print "found thumbnail"
        for img in div.findAll("img"):
            print "found image"
            src = img["src"]
            if src:
                src = absolutize(src, pageurl)
                f = open(src,'wb')
                f.write(urllib.urlopen(src).read())
                f.close()
        for h5 in div.findAll("h5"):
            print "found Headline"
            value = (h5.contents[0])
            print >> headlines.txt, value


def main():
    getAllImages("http://www.nytimes.com/")

以上是一些更新的代码.会发生什么,什么都不是.代码没有找到任何带有缩略图的div,显然,没有任何结果打印….所以可能我错过了一些指向获取包含图像和标题的正确div？

非常感谢！

解决方法:

您正在使用的操作系统不知道如何写入您在src中传递它的文件路径.确保用于将文件保存到磁盘的名称是操作系统实际可以使用的名称：

src = "abc.com/alpha/beta/charlie.jpg"
with open(src, "wb") as f:
    # IOError - cannot open file abc.com/alpha/beta/charlie.jpg

src = "alpha/beta/charlie.jpg"
os.makedirs(os.path.dirname(src))
with open(src, "wb" as f:
    # Golden - write file here

一切都会开始奏效.

还有一些额外的想法：

>确保规范化保存文件路径(例如os.path.join(some_root_dir,* relative_file_path *)) – 否则您将根据其src在整个硬盘上写入图像.
>除非您正在运行某种类型的测试,否则最好在您的user_agent字符串中宣传您是一个机器人并且尊重robots.txt文件(或者,提供某种联系信息以便人们可以要求您在需要时停止).

内容总结

以上是互联网集市为您收集整理的使用Python / urllib / beautifulsoup从URL批量下载文本和图像？全部内容，希望文章能够帮你解决使用Python / urllib / beautifulsoup从URL批量下载文本和图像？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/768721.html

来源：【匿名】

【上一篇】Robocode Python 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用Python / urllib / beautifulsoup从URL批量下载文本和图像？】教程文章相关的互联网学习教程文章

Python入门小练习 002 批量下载网页链接中的图片【代码】

我们常常需要下载网页上很多喜欢的图片，但是面对几十甚至上百张的图片，一个一个去另存为肯定是个很差的体验。我们可以用urllib包获取html的源码，再以正则表达式把匹配的图片链接放入一个list中，使用for循环来依次下载list中的链接。 import re import urllib a = raw_input("Please input a URL: ") s = urllib.urlopen(a) s2 = s.read()def image(s2):reg = r‘src="(.*?\.jpg)" pic_ext‘compile_reg = re.compile(reg)imag...

python3.4爬虫批量下载音乐【图】

最近在学习python，使用的版本为python3.4，开发环境为使用Pydev插件的eclipse。正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错，决定使用python批量下载下来。 1、音乐地址经过分析，页面嵌入的虾米播放器中的地址如下，后面以逗号分隔的字符为音乐的id，如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><span style="font-size:14px;"> <embed src="http://www.xiami....

实现python批量下载网易云音乐的免费音乐【代码】【图】

python视频教程栏目介绍实现下载免费音乐相关免费学习推荐：python视频教程运行效果代码# -*- coding:utf-8 -*- import requests, hashlib, sys, click, re, base64, binascii, json, os from Crypto.Cipher import AES from http import cookiejar""" Website:http://cuijiahua.com Author:Jack Cui Refer:https://github.com/darknessomi/musicbox """class Encrypyed():"""解密算法"""def __init__(self):self.modulus = 00e0b5...

python如何安装批量下载【图】

Python是一种计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。可以参考下面的代码：import numpy as np a=np.array([[complex(1,-1),3],[2,complex(1,1)]]) print(a) print("矩阵2的范数") print(np.linalg.norm(a,ord=2) ) #计算矩阵2的范数 print("矩阵1的范数") print(np.linalg.norm(a,ord=1) ) #计算...

python爬虫[一]批量下载妹子图【图】

煎蛋网上的妹子图专题有着质量很高的美女http://www.gxlcms.com/css/css-rwd-images.html" target="_blank">图片，今天分享一下用 python 批量下载这些妹子图的方法。需要了解的知识和工具：#1 需要了解 python 的基本语法，对这篇文章来说，你只要知道如何操作 list ,for……in……，如何定义函数就够了。网页抓取、分析和保存文件的函数边用边了解。#2 需要安装第三方库 BeautifulSoup4。使用 pip 安装是很便利的方法。最新版本的...

利用Python实现Youku视频批量下载功能实例【图】

前段时间由于收集视频数据的需要，自己捣鼓了一个YouKu视频批量下载的程序。东西虽然简单，但还挺实用的，拿出来分享给大家。　　版本：Python2.7+BeautifulSoup3.2.1import urllib,urllib2,sys,os from BeautifulSoup import BeautifulSoup import itertools,re url_i =1 pic_num = 1 #自己定义的引号格式转换函数 def _en_to_cn(str):obj = itertools.cycle([“,”])_obj = lambda x: obj.next()return re.sub(r"[\"]",_obj,str)...

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

代码如下:#coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src): try: url = urllib2.urlopen(src) content = url.read()#.decode(utf-8) return content except: print error return Nonedef pictype(content): 通过抓取网站导航栏，获得网站的图片类型返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称...

python批量下载图片的三种方法

有三种方法，一是用微软提供的扩展库win32com来操作IE，二是用selenium的webdriver，三是用python自带的HTMLParser解析。win32com可以获得类似js里面的document对象，但貌似是只读的（文档都没找到）。selenium则提供了Chrome，IE，FireFox等的支持，每种浏览器都有execute_script和find_element_by_xx方法，可以方便的执行js脚本（包括修改元素）和读取html里面的元素。不足是selenium只提供对python2.6和2.7的支持。HTMLParser则...

Python实现的批量下载RFC文档

RFC文档有很多，有时候在没有联网的情况下也想翻阅，只能下载一份留存本地了。看了看地址列表，大概是这个范围： http://www.networksorcery.com/enp/rfc/rfc1000.txt ... http://www.networksorcery.com/enp/rfc/rfc6409.txt 哈哈，很适合批量下载，第一个想到的就是迅雷…… 可用的时候发现它只支持三位数的扩展(用的是迅雷7)，我想要下的刚好是四位数…… 郁闷之下萌生自己做一个的想法！这东西很适合用python做，原理很简单，...

python实现批量下载新浪博客的方法

本文实例讲述了python实现批量下载新浪博客的方法。分享给大家供大家参考。具体实现方法如下：# coding=utf-8 import urllib2 import sys, os import re import string from BeautifulSoup import BeautifulSoup def encode(s):return s.decode(utf-8).encode(sys.stdout.encoding, ignore) def getHTML(url):#proxy_handler = urllib2.ProxyHandler({http:http://211.138.124.211:80})#opener = urllib2.build_opener(proxy_hand...

Python实现批量下载图片的方法

本文实例讲述了Python实现批量下载图片的方法。分享给大家供大家参考。具体实现方法如下：#!/usr/bin/env python #-*-coding:utf-8-*- #Filename:download_file.py import os,sys import re import urllib import urllib2 base_url = xxx array_url = list() pic_url = list() inner_url = list() def get_array_url(array_url,base_url):content = urllib.urlopen(base_url).read()array_url_a = re.findall(r/rihan.*?.html,cont...

编写Python脚本批量下载DesktopNexus壁纸的教程

DesktopNexus 是我最喜爱的一个壁纸下载网站，上面有许多高质量的壁纸，几乎每天必上，每月也必会坚持分享我这个月来收集的壁纸但是 DesktopNexus 壁纸的下载很麻烦，而且因为壁纸会通过浏览器检测你当前分辨率来展示合适你当前分辨率的壁纸，再加上是国外的网站，速度上很不乐观。于是我写了个脚本，检测输入的页面中壁纸页面的链接，然后批量下载到指定文件夹中。脚本使用 python 写的，所以需要机器上安装有 python 。用法...

python批量下载图片的三种方法【代码】

1.用微软提供的扩展库win32com来操作IE 2.用selenium的webdriver 3.用python自带的HTMLParser解析　　一是用微软提供的扩展库win32com来操作IE：win32com可以获得类似js里面的document对象，但貌似是只读的（文档都没找到）。　　二是用selenium的webdriver：selenium则提供了Chrome，IE，FireFox等的支持，每种浏览器都有execute_script和find_element_by_xx方法，可以方便的执行js脚本（包括修改元素）和读取html里面的元素。不足...

Python简单实现批量下载无版权图片【图】

有时候我们有一些获取图片素材的需求，比如写博客或者公众号文章时，需要的插图和封面，当然这些图片必须是没有版权的免费图片，比较常用网站有pexels、pixabay等，今天再给大家介绍一个新的网站：http://alana.io/。由于是国外的网站，访问速度比较慢，一页一页找，非常费时间，所以想到用Python爬取下载到本地，然后使用关键词进行归类，后期直接预览使用。首先，我们要了解下爬取数据的基本流程：发起请求：通过url向服务器发...

Python系列爬虫之批量下载抖音短视频【更新版】【图】

前言 Python批量下载抖音视频一文提供的脚本失效之后，仍然很多人来询问原因。一个个回复实在麻烦，看在大家如此喜欢这个脚本的份上，不如更新一波，得个自在。开发工具 Python版本：3.6.4 相关模块： requests模块； bs4模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。更新内容（1）接口请求返回403状态码报错修复 403状态码即服务器拒绝或禁止访问。应该是因为有人滥...

首页 / PYTHON / 使用Python / urllib / beautifulsoup从URL批量下载文本和图像？

使用Python / urllib / beautifulsoup从URL批量下载文本和图像？

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python / urllib / beautifulsoup从URL批量下载文本和图像？】教程文章相关的互联网学习教程文章

Python入门小练习 002 批量下载网页链接中的图片【代码】

python3.4爬虫批量下载音乐【图】

实现python批量下载网易云音乐的免费音乐【代码】【图】

python如何安装批量下载【图】

python爬虫[一]批量下载妹子图【图】

利用Python实现Youku视频批量下载功能实例【图】

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

python批量下载图片的三种方法

Python实现的批量下载RFC文档

python实现批量下载新浪博客的方法

Python实现批量下载图片的方法

编写Python脚本批量下载DesktopNexus壁纸的教程

python批量下载图片的三种方法【代码】

Python简单实现批量下载无版权图片【图】

Python系列爬虫之批量下载抖音短视频【更新版】【图】

PYTHON - 相关标签

URLLIB - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程