首页 / PYTHON / Python从Web爬网URL下载数据文件

Python从Web爬网URL下载数据文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python从Web爬网URL下载数据文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2979字，纯文字阅读大概需要5分钟。

内容图文

我正在尝试开发一个自动化脚本,以将以下数据文件下载到实用程序服务器,然后进行ETL相关处理.寻找pythonic建议.对urllib,urllib2,漂亮的汤,请求,机械化,硒等之间的此类过程的当前最佳选择不熟悉.

The Website

“完全替代每月NPI文件”

The Monthly Data File

文件名(和后续URL)每月更改一次.

到目前为止,这是我目前的方法：

from bs4 import BeautifulSoup
import urllib 
import urllib2

soup = BeautifulSoup(urllib2.urlopen('http://nppes.viva-it.com/NPI_Files.html').read())

download_links = []

for link in soup.findAll(href=True):
    urls = link.get('href', '/')
    download_links.append(urls)

target_url = download_links[2]

urllib.urlretrieve(target_url , "NPI.zip")

我没想到这个笨拙的政府的内容.网站进行更改,因此尽管我只选择了已抓取的网址列表的第三个元素就足够了.当然,如果我的整个方法都做错了,我欢迎进行更正(数据分析是个人的长处).另外,如果我使用的是过时的库,非Python实践或性能低下的选项,我绝对欢迎更新更好的！

解决方法:

通常,requests是获取网页的最简单方法.

如果数据文件的名称遵循NPPES_Data_Dissemination_< Month __< year> .zip的格式,这看起来很合逻辑,则可以直接请求；

import requests

url = "http://nppes.viva-it.com/NPPES_Data_Dissemination_{}_{}.zip"
r = requests.get(url.format("March", 2015))

然后,数据在r.text中.

如果不确定数据文件名,则可以获取网页并使用正则表达式搜索zip文件的链接；

In [1]: import requests

In [2]: r = requests.get('http://nppes.viva-it.com/NPI_Files.html')

In [3]: import re

In [4]: re.findall('http.*NPPES.*\.zip', r.text)
Out[4]: 
['http://nppes.viva-it.com/NPPES_Data_Dissemination_March_2015.zip',
 'http://nppes.viva-it.com/NPPES_Deactivated_NPI_Report_031015.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_030915_031515_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_031615_032215_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_032315_032915_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_033015_040515_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_100614_101214_Weekly.zip']

In [4]中的正则表达式基本上说要查找以“ http”开头,包含“ NPPES”并以“ .zip”结尾的字符串.
这还不够专业.让我们如下更改正则表达式；

In [5]: re.findall('http.*NPPES_Data_Dissemination.*\.zip', r.text)
Out[5]: 
['http://nppes.viva-it.com/NPPES_Data_Dissemination_March_2015.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_030915_031515_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_031615_032215_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_032315_032915_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_033015_040515_Weekly.zip',
 'http://nppes.viva-it.com/NPPES_Data_Dissemination_100614_101214_Weekly.zip']

这为我们提供了所需文件的URL,还提供了每周文件.

In [6]: fileURLS = re.findall('http.*NPPES_Data_Dissemination.*\.zip', r.text)

让我们过滤掉每周文件：

In [7]: [f for f in fileURLS if 'Weekly' not in f]
Out[7]: ['http://nppes.viva-it.com/NPPES_Data_Dissemination_March_2015.zip']

这是您要查找的URL.但是整个方案确实取决于名称的规则性.您可以在正则表达式搜索中添加标志以舍弃字母的大小写,这会使它接受更多.

内容总结

以上是互联网集市为您收集整理的Python从Web爬网URL下载数据文件全部内容，希望文章能够帮你解决Python从Web爬网URL下载数据文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/661361.html

来源：【匿名】

【上一篇】Python-比较同义词NLTK 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python从Web爬网URL下载数据文件】教程文章相关的互联网学习教程文章

Python编程 PDF下载【图】

网盘下载：Python编程从入门到实践 PDF 下载 – 易分享电子书PDF资源网作者: [美]埃里克·马瑟斯出版社: 人民邮电出版社副标题: 从入门到实践原作名: Python Crash Course译者: 袁国忠出版年: 2016-7-1页数: 459定价: CNY 89.00装帧: 平装内容简介 · · · · · ·本书是一本针对所有层次的Python 读者而作的Python 入门书。全书分两部分：第一部分介绍用Python 编程所必须了解的基本概念，包括matplotlib、NumPy 和Pygal 等强大的Pyt...

python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)

# -*- coding: utf-8 -*-"""Created on Mon Mar 21 11:04:54 2017@author: sl"""import requestsimport time #################################################################################################先找到对应的爬取验证码连接，例如我要爬取车违章信息################################################找到车违章链接http://smart.gzeis.edu.cn:8081/Content/AuthCode.aspx#####################################...

Python TCP通信之仿文件下载【代码】

TCP_文件下载_Client.pyimport socketdef main():# 创建TCP套接字tcp_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 链接服务器tcp_socket.connect(("127.0.0.1", 5001))# 获取下载的文件的名字download_file_name = input("请输入要下载的文件名字：")# 将文件名字发送到服务器tcp_socket.send(download_file_name.encode("utf-8"))# 接收文件中的数据recv_data = tcp_socket.recv(1024)if recv_data:# 保存接收到...

python--you-get:视频下载【图】

You-Get 是一个基于 Python 3 的下载工具. 使用 You-Get 可以很轻松的下载到网络上的视频、图片及音乐目前 You-Get 支持的站点达到了71个, 囊括了国外的 Youtube、 Vimeo 、 Tumblr 、 Instagram 等以及国内的爱奇艺、优酷、乐视、哔哩哔哩等安装 pip install you-get 安装 You-Get 需要安装如下依赖包FFmpeg (强烈推荐) or Libav(可选) RTMPDump 原文：https://www.cnblogs.com/liming19680104/p/12152463.html

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

一、下载一只猫import urllib.requestresponse = urllib.request.urlopen("http://cdn.duitang.com/uploads/item/201111/24/20111124222137_wHYwc.jpg") cat_img = response.read()with open(‘cat_0.jpeg‘, ‘wb‘) as f:f.write(cat_img) urlopen()中的url可以是string，也可以是request object，因此可以是：import urllib.requestreq = urllib.request.Request("http://cdn.duitang.com/uploads/item/201111/24/2011112422213...

Python获取个人网站的所有课程下载链接和密码，并保存到Mongodb中【代码】

1、获取网站课程的分类地址；‘‘‘ 爬取屌丝首页，获取每个分类名称和链接 ‘‘‘import requests from lxml import etreeheaders = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘, } def get_class_data():list_data = []url = ‘http://www.diaosiweb.net/index.html‘responese = requests.get(url,headers=headers)responese.encoding...

Python的下载和安装【图】

Python几乎可以在任何平台下运行，如我们所熟悉的：Windows/Unix/Linux/Macintosh。在这里我们说一下，在Windows操作系统中安装python。我的操作系统为：Windows 7,64位安装python的时候，我们既可以从源码安装，同时也可以用已经编译好并且打包好的二进制版本进行安装，这里我选择的是后者。Python2.7.8下载地址：https://www.python.org/download/releases/2.7.8/ 方法/步骤打开百度首页，搜索“python”，进入官网，进行下载，...

使用pip下载/安装python模块【代码】

C:\Python\Python35\Scripts>pip3.5.exe install pyperclip Collecting pyperclipDownloading pyperclip-1.5.27.zip Installing collected packages: pyperclipRunning setup.py install for pyperclip ... done Successfully installed pyperclip-1.5.27 You are using pip version 8.1.1, however version 9.0.1is available. You should consider upgrading via the ‘python -m pip install --upgrade pip‘ command.pip安装py...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

解决Python中pip/pip3下载速度慢【代码】

PyPI 镜像简介PyPI (Python Package Index) 是 Python 编程语言的软件存储库。开发者可以通过 PyPI 查找和安装由 Python 社区开发和共享的软件，也可以将自己开发的库上传至 PyPI 。Linux下更换pip源使用pip/pip3安装一些python包的时候下载速度非常慢，这时候我们可以动手更换python的pip/pip3源，在Linux系统中找到~/.pip/pip.conf这个文件，如果没有这个文件自己创建一个同名文件，或者你的系统连~./pip这个目录也没有，那就自己...

python mysql 简单总结（MySQLdb模块需另外下载）

python 通过DB-API规范了它所支持的不同的数据库，使得不同的数据库可以使用统一的接口来访问和操作。满足DB-API规范的的模块必须提供以下属性：属性名　　　　　　描述apilevel 　　　　DB-API 模块兼容的DB-API 版本号threadsafety　　线程安全级别paramstyle　　　该模块支持的SQL语句参数风格connect()　　　　连接函数（最常用）其中 threadsafety是一个整数，取值如下：0：不支持线程安全，多个线程不能共享此模块1：初级线程...

Python实现的下载8000首儿歌的代码分享

下载8000首儿歌的python的代码：复制代码代码如下: #-*- coding: UTF-8 -*- from pyquery import PyQuery as py from lxml import etree import urllib import re import os import sys import loggingdef format(filename): tuple=(‘ ‘,‘‘‘,‘\‘‘) for char in tuple: if (filename.find(char)!=-1): filename=filename.replace(char,"_") return filenamedef download_mp3(mp3_url, fil...

下载python爬虫需要的库文件bs4

新建文件 requirements.txt修改requirements.txt文件内容如下：# need to install module bs4pymongorequestsjson然后执行命令：sudo pip install -r requirements.txt 原文：https://www.cnblogs.com/rohens-hbg/p/14445957.html

Python从网易云音乐、QQ 音乐、酷狗音乐、虾米音乐等搜索和下载歌曲

music-dl 从网易云音乐、QQ音乐、酷狗音乐、百度音乐、虾米音乐等搜索和下载歌曲。Search and download music from netease, qq, kugou, baidu and xiami.注意：部分音乐源在一些国家和地区不可用，可以考虑使用中国大陆代理。Note: Some music sources may not be available in some countries and regions. If so, you should use Chinese proxies. See https://github.com/0xHJK/Proxies for public proxies.Feature支持指定搜索...

Python.whl下载

1、Python Extension Packages for Windows - Christoph Gohlke.html（https://www.lfd.uci.edu/~gohlke/pythonlibs/）　ZC：里面有各种whl。然而它自己网站上写的是：“Unofficial Windows Binaries for Python Extension Packages”（即 “非官方的Windows ... ...”）。自己考虑要不要下要不要用吧...2、https://pypi.org/3、4、5、原文：https://www.cnblogs.com/pythonzc/p/12527036.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python从Web爬网URL下载数据文件

Python从Web爬网URL下载数据文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python从Web爬网URL下载数据文件】教程文章相关的互联网学习教程文章

Python编程 PDF下载【图】

python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)

Python TCP通信之仿文件下载【代码】

python--you-get:视频下载【图】

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

Python获取个人网站的所有课程下载链接和密码，并保存到Mongodb中【代码】

Python的下载和安装【图】

使用pip下载/安装python模块【代码】

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

解决Python中pip/pip3下载速度慢【代码】

python mysql 简单总结（MySQLdb模块需另外下载）

Python实现的下载8000首儿歌的代码分享

下载python爬虫需要的库文件bs4

Python从网易云音乐、QQ 音乐、酷狗音乐、虾米音乐等搜索和下载歌曲

Python.whl下载

PYTHON - 相关标签

URL - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程