首页 / PYTHON / python-如何从aspx页面抓取图像？

python-如何从aspx页面抓取图像？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-如何从aspx页面抓取图像？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4059字，纯文字阅读大概需要6分钟。

内容图文

我正在尝试从aspx页面上抓取图像,我有这段代码可以从普通网页上抓取图像,但是无法抓取aspx页面,原因是我需要将http发布请求发送至aspx页面,我什至不知道该怎么做看完几个线程后,这是原始代码

from bs4 import BeautifulSoup as bs
import urlparse
import urllib2
from urllib import urlretrieve
import os
import sys
import subprocess
import re


def thefunc(url, out_folder):

    c = False

我已经为aspx页面和if语句定义了标头,以区分普通页面和aspx页面

    select =  raw_input('Is this a .net  aspx page ? y/n : ')
    if select.lower().startswith('y'):
        usin = raw_input('Specify origin of .net page : ')
        usaspx = raw_input('Specify aspx page url : ')

aspx页面的标题

        headdic = {
            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Origin': usin,
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Referer': usaspx,
            'Accept-Encoding': 'gzip,deflate,sdch',
            'Accept-Language': 'en-US,en;q=0.8',
            'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3'
        }
        c = True

    if c:
        req = urllib2.Request(url, headers=headic)
    else:
        req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})
    resp = urllib2.urlopen(req)

    soup = bs(resp, 'lxml')

    parsed = list(urlparse.urlparse(url))

    print '\n',len(soup.findAll('img')), 'images are about to be downloaded'

    for image in soup.findAll("img"):

        print "Image: %(src)s" % image

        filename = image["src"].split("/")[-1]

        parsed[2] = image["src"]

        outpath = os.path.join(out_folder, filename)

        try:

            if image["src"].lower().startswith("http"):
                urlretrieve(image["src"], outpath)
            else:
                urlretrieve(urlparse.urlunparse(parsed), outpath)
        except:
            print 'OOPS missed one for some reason !!'
            pass


try:
    put =  raw_input('Please enter the page url : ')
    reg1 = re.compile('^http*',re.IGNORECASE)
    reg1.match(put)
except:
    print('Type the url carefully !!')
    sys.exit()
fol = raw_input('Enter the foldername to save the images : ')
if os.path.isdir(fol):
    thefunc(put, fol)
else:
    subprocess.call('mkdir', fol)
    thefunc(put, fol)

我对aspx检测和为aspx页面创建标题做了一些修改,但是接下来如何修改我被困在这里

***这是aspx页面链接*** http://www.foxrun.com.au/Products/Cylinders_with_Gadgets.aspx

抱歉,如果我不清楚,您可以看到我是编程的新手,我要问的问题是,当我单击浏览器中的下一页按钮时,如何从aspx页面获取图像？刮掉一页导致URL保持不变,除非我以某种方式发送http帖子告诉该页面显示带有新图片的下一页,因为url保持不变我希望我清楚

解决方法:

您可以使用请求来完成此任务,方法是将具有正确数据的数据发布到url,该数据可以从初始页面解析：

import requests
from bs4 import BeautifulSoup
from urlparse import urljoin
from itertools import chain

url = "http://www.foxrun.com.au/Products/Cylinders_with_Gadgets.aspx"


def validate(soup):
    return {"__VIEWSTATE": soup.select_one("#__VIEWSTATE")["value"],
            "__VIEWSTATEGENERATOR": soup.select_one("#__VIEWSTATEGENERATOR")["value"],
            "__EVENTVALIDATION": soup.select_one("#__EVENTVALIDATION")["value"]}


def parse(base, url):
    data = {"__ASYNCPOST": "true"
            }
    h = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17'}
    soup = BeautifulSoup(requests.get(url).text)
    data.update(validate(soup))
    # gets links for < 1,2,3,4,5,6>
    pages = [a["id"] for a in soup.select("a[id^=ctl01_ctl00_pbsc1_pbPagerBottom_btnP]")][2:]
    # get images from initial page
    yield [img["src"] for img in soup.select("img")]
    # add token for post 
    data.update(validate(soup))
    for p in pages:
        # we need $in place of _ for the form data
        data["__EVENTTARGET"] = p.replace("_", "$")
        data["RadScriptManager1"] = "ctl01$ctl00$pbsc1$ctl01$ctl00$pbsc1$ajaxPanel1Panel|{}".format(p.replace("_", "$"))
        r = requests.post(url, data=data, headers=h).text
        soup = BeautifulSoup(r)
        yield [urljoin(base, img["src"]) for img in soup.select("img")]


for url in chain.from_iterable(parse("http://www.foxrun.com.au/", url)):
    print(url)

这将为您提供链接,您只需下载内容并将其写入文件即可.通常,我们可以创建一个Session并从一页转到下一页,但是在这种情况下,发布的内容是ctl01 $ctl00 $pbsc1 $pbPagerBottom $btnNext,从初始页到第二页都可以正常工作,但是没有概念从第二个到第三个等等.因为我们在表单数据中没有页码.

内容总结

以上是互联网集市为您收集整理的python-如何从aspx页面抓取图像？全部内容，希望文章能够帮你解决python-如何从aspx页面抓取图像？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/664333.html

来源：【匿名】

【上一篇】Python计算错误【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-如何从aspx页面抓取图像？】教程文章相关的互联网学习教程文章

Chrome + Python 抓取动态网页内容【代码】【图】

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：import urllib2url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"up=urllib2.urlopen(url)#打开目标页面，存入变量up cont=up.read()#从up中读入该HTML文件 key1=‘<a href="http‘#设置关键字1 key2="target"#设置关键字2 pa=cont.find(key1)#找出关键字1的位置 pt=cont.find(key2,pa...

Python之HTML的解析（网页抓取一）

http://blog.csdn.net/my2010sam/article/details/14526223---------------------对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要...

使用python抓取CSDN关注人的所有发布的文章【代码】

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import timedef startParser(author,page=1):reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n*\t*\s*</a>'cj = cookielib.LWPCookieJar()cookie_support = urllib2.HTTPCookieProcessor(cj)opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)urllib2.install_opener(opener)headers =...

Python抓取中文网页出现乱码【代码】

转自http://www.oschina.net/code/snippet_1448389_33526原来是有的时候网站将网页用gzip压缩了 1""" 2迪艾姆公司python远程培训班黄哥所写 3python远程视频培训班周末班4迪艾姆python培训周末班北京3月8、上海3月9日上课欢迎报名参加。5http://www.010dm.com/xflml/3089.html6回答贴吧上一个同学用python3访问sina首页中文的处理7 8如果只用普通的9import urllib.request 10html = urllib.request.urlopen("http://www.sina.co...

Python-爬虫-抓取头条街拍图片-1.1【代码】【图】

下面实例是抓取头条图片信息，只是抓取了查询列表返回的json中image，大图标，由于该结果不会包含该链接详情页的所有图片列表；因此这里抓取不全；后续有时间在完善；1、抓取头条街拍相关图片请求如下：2、通过debug可以看到请求参数以及相应结果数据：3、响应结果，比较重要的是data（group_id,image_list、large_image_url等字段）：主程序如下：抓取图片信息保存本地，然后将图片组和图片信息保存至mysql数据库； 1#今日头条街...

python + appium +fiddler 抓取今日头条【代码】

fiddler 获取response中json内容，在fiddler scrpit中 OnBeforeResponse函数内加以下代码 //过滤无关请求，只关注特定请求if (oSession.fullUrl.Contains("所需网站")||){oSession.utilDecodeResponse();//消除保存的请求可能存在乱码的情况var fso;var file;fso = new ActiveXObject("Scripting.FileSystemObject");//文件保存路径，可自定义file = fso.OpenTextFile("文本路径",8 ,true);//file.writeLine("Request-url:" + oSes...

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态（上）和利用Python网络爬虫爬取微信朋友圈动态——附代码（下），并且对抓取到的数据进行了Python词云和wordart可视化，感兴趣的伙伴可以戳这篇文章：利用Python词云和wordart可视化工具对朋友圈数据进行可视化。今天我们继续focus on微信，不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况。代码实现蛮简单的，具体的教程如下...

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Web 数据抓取技术具有非常巨大的应用需求及价值，用 Python 在网页上收集数据，不仅抓取数据的操作简单，而且其数据分析功能也十分强大。通过 Python 的时lib 组件中的 urlparse 函数，可轻松解析指定网址的内容，在接收返回的 ParseResult 对象后，即可通过其属性取出网址中各项有用信息。 Python 还可进一步用 requests 函数抓取网页源代码，再通过相关语句或正则表达式搜索得到指定的数据。如果要抓取的数据比较复杂， ...

python3用BeautifulSoup用re.compile来匹配需要抓取的href地址【代码】

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read()html=""" <html><head><title>The Dormouse‘s story</titl...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果，经详细查看请求的方式为post，请求的结果为JSON数据具体实现代码如下：import requests import json finalstr = ‘‘#初始化字符串 totlePage = 0 #初始化总页数 test = 0 #初始化数据总条数 url = ‘http://study.163.com/p/search/studycourse.json‘ headers = {‘content-type‘: ‘application/json‘}def getD...

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

原文：https://blog.csdn.net/suibianshen2012/article/details/62040460?utm_source=copy # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen...

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

字符串(str)编码成字节码(bytes)，字节码解码为字符串获取当前环境编码：sys.stdin.encodingurl编码urllib.parse.quote()url解码urllib.parse.unquote()列表去重：pages = list(set(pages))创建文件夹（可多级创建）：os.makedirs(folder) os.mkdir()只能单级创建首先分析网页（图虫网）的URL规律：　　根网页地址形如：　　　　http://tuchong.com/tags/人像/?page=[1, 2, 3 ...]　　二级网页链接形如：　　　　href="http://t...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-如何从aspx页面抓取图像？

python-如何从aspx页面抓取图像？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-如何从aspx页面抓取图像？】教程文章相关的互联网学习教程文章

Chrome + Python 抓取动态网页内容【代码】【图】

Python之HTML的解析（网页抓取一）

使用python抓取CSDN关注人的所有发布的文章【代码】

Python抓取中文网页出现乱码【代码】

Python-爬虫-抓取头条街拍图片-1.1【代码】【图】

python + appium +fiddler 抓取今日头条【代码】

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

python3用BeautifulSoup用re.compile来匹配需要抓取的href地址【代码】

Python打印scrapy蜘蛛抓取树结构的方法【代码】

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

python爬虫CSDN文章抓取

PYTHON - 相关标签

ASP - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程