首页 / JAVASCRIPT / python – Scrapy,在Javascript中抓取数据

python – Scrapy,在Javascript中抓取数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Scrapy,在Javascript中抓取数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3713字，纯文字阅读大概需要6分钟。

内容图文

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是：

如何获取此类案例的值(文本值)？

这是我试图筛选的网站：
https://www.mcdonalds.com.sg/locate-us/

我想要的属性：
地址,联系方式,营业时间.

如果您在Chrome浏览器中执行“右键单击”,“查看源代码”,您将看到HTML中无法使用此类值.

编辑

Sry paul,我做了你告诉我的事情,找到了admin-ajax.php并看到了尸体但是,我现在真的被困住了.

如何从json对象中检索值并将其存储到我自己的变量字段中？如果您可以分享如何为公众和刚刚开始scrapy的人分享一个属性,那将是一件好事.

到目前为止,这是我的代码

Items.py

class McDonaldsItem(Item):
name = Field()
address = Field()
postal = Field()
hours = Field()

McDonalds.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re

from fastfood.items import McDonaldsItem

class McDonaldSpider(BaseSpider):
name = "mcdonalds"
allowed_domains = ["mcdonalds.com.sg"]
start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

def parse_json(self, response):

    js = json.loads(response.body)
    pprint.pprint(js)

Sry进行长时间编辑,简而言之,我如何将json值存储到我的属性中？例如

***项目[‘地址’] = *如何检索****

P.S,不确定这是否有帮助,但是,我使用cmd行运行这些脚本

scrapy crawl mcdonalds -o McDonalds.json -t json(将我的所有数据保存到json文件中)

我不能强调我的感激之情.我知道问你这个是不合理的,即使你没有时间这个也完全没问题.

解决方法:

(我把它发布到了scrapy-users邮件列表,但保罗建议我在这里发布它,因为它补充了shell命令交互的答案.)

通常,使用第三方服务呈现某些数据可视化(地图,表格等)的网站必须以某种方式发送数据,并且在大多数情况下,可以从浏览器访问这些数据.

对于这种情况,检查(即浏览浏览器发出的请求)显示数据从POST请求加载到https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php

所以,基本上你可以在一个漂亮的json格式中准备好消费所需的所有数据.

Scrapy在写蜘蛛之前提供了shell命令,这对于思想者来说非常方便：

$scrapy shell https://www.mcdonalds.com.sg/locate-us/
2013-09-27 00:44:14-0400 [scrapy] INFO: Scrapy 0.16.5 started (bot: scrapybot)
...

In [1]: from scrapy.http import FormRequest

In [2]: url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'

In [3]: payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}

In [4]: req = FormRequest(url, formdata=payload)

In [5]: fetch(req)
2013-09-27 00:45:13-0400 [default] DEBUG: Crawled (200) <POST https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php> (referer: None)
...

In [6]: import json

In [7]: data = json.loads(response.body)

In [8]: len(data['stores']['listing'])
Out[8]: 127

In [9]: data['stores']['listing'][0]
Out[9]: 
{u'address': u'678A Woodlands Avenue 6<br/>#01-05<br/>Singapore 731678',
 u'city': u'Singapore',
 u'id': 78,
 u'lat': u'1.440409',
 u'lon': u'103.801489',
 u'name': u"McDonald's Admiralty",
 u'op_hours': u'24 hours<br>\r\nDessert Kiosk: 0900-0100',
 u'phone': u'68940513',
 u'region': u'north',
 u'type': [u'24hrs', u'dessert_kiosk'],
 u'zip': u'731678'}

简而言之：在你的蜘蛛中,你必须返回上面的FormRequest(…),然后在回调中加载来自response.body的json对象,最后是列表数据中每个商店的数据[‘stores’] [‘listing’ ]创建一个包含所需值的项目.

像这样的东西：

class McDonaldSpider(BaseSpider):
    name = "mcdonalds"
    allowed_domains = ["mcdonalds.com.sg"]
    start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

    def parse(self, response):
        # This receives the response from the start url. But we don't do anything with it.
        url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'
        payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}
        return FormRequest(url, formdata=payload, callback=self.parse_stores)

    def parse_stores(self, response):
        data = json.loads(response.body)
        for store in data['stores']['listing']:
            yield McDonaldsItem(name=store['name'], address=store['address'])

内容总结

以上是互联网集市为您收集整理的python – Scrapy,在Javascript中抓取数据全部内容，希望文章能够帮你解决python – Scrapy,在Javascript中抓取数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/705789.html

来源：【匿名】

【上一篇】javascript – 单个元素上的多个JS事件处理程序【下一篇】javascript 怎么调用php方法

更多 ►

【python – Scrapy,在Javascript中抓取数据】教程文章相关的互联网学习教程文章

Scrapy与scrapy-splash框架快速加载js页面【图】

一、前言我们在使用爬虫程序爬取网页时，一般对于静态页面的爬取是比较简单的，之前写过挺多的案例。但是对于使用js动态加载的页面如何爬取呢？对于动态js页面的爬取有以下几种爬取的方式：通过selenium+phantomjs实现。phantomjs是一个无头浏览器，selenium是一个自动化测试的框架，通过无头浏览器请求页面，等待js加载，再通过自动化测试selenium获取数据。因为无头浏览器非常消耗资源，所在性能方面有所欠缺。Scrapy-splash框架...

scrapy定制爬虫-爬取javascript内容

很多网站都使用javascript...网页内容由js动态生成,一些js事件触发的页面内容变化,链接打开.甚至有些网站在没有js的情况下根本不工作,取而代之返回你一条类似"请打开浏览器js"之类的内容.对javascript的支持有四种解决方案:1,写代码模拟相关js逻辑.2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类.3,使用一个无界面的浏览器,各种基于webkit的,casperjs,phantomjs等等.4,结合一个js执行引擎,自己实现一个轻量级的浏览...

python使用scrapy解析js示例

代码如下:from selenium import selenium class MySpider(CrawlSpider): name = cnbeta allowed_domains = [cnbeta.com] start_urls = [http://www.gxlcms.com]rules = ( # Extract links matching category.php (but not matching subsection.php) # and follow links from them (since no callback means follow=True by default). Rule(SgmlLinkExtractor(allow=(/articles/.*\.htm, )), ...

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 Python 爬虫（5）：前置准备（四）数据库基础小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装小白学 Python 爬虫（7）：HTTP 基础小白学 Python 爬虫（8）：网页基础小...

javascript – 使用Scrapy从HTML中获取标记数据【代码】

我一直在尝试使用Scrapy(xpath)从Kbb的HTML中提取脚本标记中的数据.但我的主要问题是识别正确的div和脚本标签.我是使用xpath的新手,非常感谢任何帮助！ HTML(http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mileage=10000&condition=fair&pricetype=retail)：<script type="text/javascript" src="http://s1.kbb.com/combine/IncentivesPilotJs/949332058"></script><input type="hidden...

python – Scrapy,在Javascript中抓取数据【代码】

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是：如何获取此类案例的值(文本值)？这是我试图筛选的网站：https://www.mcdonalds.com.sg/locate-us/ 我想要的属性：地址,联系方式,营业时间. 如果您在Chrome浏览器中执行“右键单击”,“查看源代码”,您将看到HTML中无法使用此类值. 编辑 Sry paul,我做了你告诉我的事情,找到了admin-ajax.php并看到了尸体但是,我现在真...

javascript – 我如何使用scrapy来解析JS中的链接？【代码】

我试图让scrapy解析页面上的链接来刮擦.不幸的是,此页面上的链接包含在JavaScript onclick功能中.我想使用SgmlLinkExtractor规则来提取解析JavaScript的链接,并创建用于callback =’parse_item’的URL(如果可能). 以下是使用JS函数的每个链接的示例：<a onclick="window.open('page.asp?ProductID=3679','productwin','width=700,height=475,scrollbars,resizable,status');" href="#internalpagelink">Link Text</a>我只需要链接提...

Scrapy如何处理Javascript【代码】

蜘蛛参考：import scrapy from scrapy.spiders import Spider from scrapy.selector import Selector from script.items import ScriptItemclass RunSpider(scrapy.Spider):name = "run"allowed_domains = ["stopitrightnow.com"]start_urls = ('http://www.stopitrightnow.com/',)def parse(self, response):for widget in response.xpath('//div[@class="shopthepost-widget"]'):#print widget.extract()item = ScriptItem()item...

如何将javascript渲染模块集成到scrapy中？【代码】

我正在开发一个网络抓取程序,但我遇到了一个使用scrapy生成javascript内容的问题.我知道scrapy不是用来做这种类型的刮擦,但我一直在尝试使用scrapyjs或splash来完成我需要的东西. 但是,我不能让这两个模块中的任何一个与scrapy一起正常工作.我的问题是,如果有人有一个最小的例子,他们可以显示使用scrapyjs或splash来呈现javascript页面？编辑：我的平台是ubuntu,我使用python.对于scrapyjs我只是把源放在scrapy项目的最上面的目录...

python – 使用Scrapy与Javascript和iFrames和替代品【代码】

我正在尝试使用Scrapy来刮取美国政府法规网站(www.regulations.gov).它有很多关于它的信息,但它是一个糟糕的网站,充满了javascript和iframe.我尝试运行一些简单的Scrapy蜘蛛,但我无法解析任何东西,因为所有东西都通过Javascript和iframe加载. 例如,在main search page上,这段代码实际上加载了结果表：<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script><title>Regulations.gov</title> <link rel="s...

python – Scrapy：下一个按钮使用javascript【代码】

我试图从这个网站http://saintbarnabas.hodesiq.com/joblist.asp?user_id=刮掉我希望得到所有的RN …我可以抓取数据,但无法继续下一页因为它的JavaScript.我尝试阅读其他问题,但我没有得到它.这是我的代码class MySpider(CrawlSpider):name = "commu"allowed_domains = ["saintbarnabas.hodesiq.com"]start_urls = ["http://saintbarnabas.hodesiq.com/joblist.asp?user_id=",]rules = (Rule (SgmlLinkExtractor(allow=('\d+'),res...

首页 / JAVASCRIPT / python – Scrapy,在Javascript中抓取数据

python – Scrapy,在Javascript中抓取数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Scrapy,在Javascript中抓取数据】教程文章相关的互联网学习教程文章

Scrapy与scrapy-splash框架快速加载js页面【图】

scrapy定制爬虫-爬取javascript内容

python使用scrapy解析js示例

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门【图】

javascript – 使用Scrapy从HTML中获取标记数据【代码】

python – Scrapy,在Javascript中抓取数据【代码】

javascript – 我如何使用scrapy来解析JS中的链接？【代码】

Scrapy如何处理Javascript【代码】

如何将javascript渲染模块集成到scrapy中？【代码】

python – 使用Scrapy与Javascript和iFrames和替代品【代码】

python – Scrapy：下一个按钮使用javascript【代码】

JAVASCRIPT - 相关标签

PYTHON - 相关标签

数据 - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程