首页 / JAVASCRIPT / python – Scrapy：下一个按钮使用javascript

python – Scrapy：下一个按钮使用javascript

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Scrapy：下一个按钮使用javascript，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1180字，纯文字阅读大概需要2分钟。

内容图文

我试图从这个网站http://saintbarnabas.hodesiq.com/joblist.asp?user_id=刮掉
我希望得到所有的RN …我可以抓取数据,但无法继续下一页
因为它的JavaScript.我尝试阅读其他问题,但我没有得到它.这是我的代码

class MySpider(CrawlSpider):
    name = "commu"
    allowed_domains = ["saintbarnabas.hodesiq.com"]
    start_urls = ["http://saintbarnabas.hodesiq.com/joblist.asp?user_id=",
    ]
    rules = (Rule (SgmlLinkExtractor(allow=('\d+'),restrict_xpaths=('*'))
    , callback="parse_items", follow= True),
    )

下一个按钮显示为

<a href="Javascript: Move('next')">Next</a>

这个分页让我痛苦……

解决方法:

简而言之,您需要弄清楚Move(‘next’)的作用并在您的代码中重现它.

快速检查站点显示功能代码是这样的：

function Move(strIndicator)
{
    document.frm.move_indicator.value = strIndicator;
    document.frm.submit();
}

document.frm是名为“frm”的表单：

<form name="frm" action="joblist.asp" method="post">

所以,基本上你需要构建一个请求来为该表单执行POST,并将move_indicator值设置为“next”.这可以通过使用FormRequest类(see the docs)轻松完成,如：

return FormRequest.from_response(response, formname="frm", 
                                 formdata={'move_indicator': 'next'})

这种技术适用于大多数情况.困难的部分是弄清楚javascript代码是什么,有时它可能会被混淆并执行过于复杂的东西,以避免被刮掉.

内容总结

以上是互联网集市为您收集整理的python – Scrapy：下一个按钮使用javascript全部内容，希望文章能够帮你解决python – Scrapy：下一个按钮使用javascript所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/792737.html

来源：【匿名】

【上一篇】javascript – 如何在Lynx中查看我的网页时隐藏div？【下一篇】javascript 怎么调用php方法

更多 ►

【python – Scrapy：下一个按钮使用javascript】教程文章相关的互联网学习教程文章

Scrapy与scrapy-splash框架快速加载js页面【图】

一、前言我们在使用爬虫程序爬取网页时，一般对于静态页面的爬取是比较简单的，之前写过挺多的案例。但是对于使用js动态加载的页面如何爬取呢？对于动态js页面的爬取有以下几种爬取的方式：通过selenium+phantomjs实现。phantomjs是一个无头浏览器，selenium是一个自动化测试的框架，通过无头浏览器请求页面，等待js加载，再通过自动化测试selenium获取数据。因为无头浏览器非常消耗资源，所在性能方面有所欠缺。Scrapy-splash框架...

scrapy定制爬虫-爬取javascript内容

很多网站都使用javascript...网页内容由js动态生成,一些js事件触发的页面内容变化,链接打开.甚至有些网站在没有js的情况下根本不工作,取而代之返回你一条类似"请打开浏览器js"之类的内容.对javascript的支持有四种解决方案:1,写代码模拟相关js逻辑.2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类.3,使用一个无界面的浏览器,各种基于webkit的,casperjs,phantomjs等等.4,结合一个js执行引擎,自己实现一个轻量级的浏览...

python使用scrapy解析js示例

代码如下:from selenium import selenium class MySpider(CrawlSpider): name = cnbeta allowed_domains = [cnbeta.com] start_urls = [http://www.gxlcms.com]rules = ( # Extract links matching category.php (but not matching subsection.php) # and follow links from them (since no callback means follow=True by default). Rule(SgmlLinkExtractor(allow=(/articles/.*\.htm, )), ...

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 Python 爬虫（5）：前置准备（四）数据库基础小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装小白学 Python 爬虫（7）：HTTP 基础小白学 Python 爬虫（8）：网页基础小...

javascript – 使用Scrapy从HTML中获取标记数据【代码】

我一直在尝试使用Scrapy(xpath)从Kbb的HTML中提取脚本标记中的数据.但我的主要问题是识别正确的div和脚本标签.我是使用xpath的新手,非常感谢任何帮助！ HTML(http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mileage=10000&condition=fair&pricetype=retail)：<script type="text/javascript" src="http://s1.kbb.com/combine/IncentivesPilotJs/949332058"></script><input type="hidden...

python – Scrapy,在Javascript中抓取数据【代码】

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是：如何获取此类案例的值(文本值)？这是我试图筛选的网站：https://www.mcdonalds.com.sg/locate-us/ 我想要的属性：地址,联系方式,营业时间. 如果您在Chrome浏览器中执行“右键单击”,“查看源代码”,您将看到HTML中无法使用此类值. 编辑 Sry paul,我做了你告诉我的事情,找到了admin-ajax.php并看到了尸体但是,我现在真...

javascript – 我如何使用scrapy来解析JS中的链接？【代码】

我试图让scrapy解析页面上的链接来刮擦.不幸的是,此页面上的链接包含在JavaScript onclick功能中.我想使用SgmlLinkExtractor规则来提取解析JavaScript的链接,并创建用于callback =’parse_item’的URL(如果可能). 以下是使用JS函数的每个链接的示例：<a onclick="window.open('page.asp?ProductID=3679','productwin','width=700,height=475,scrollbars,resizable,status');" href="#internalpagelink">Link Text</a>我只需要链接提...

Scrapy如何处理Javascript【代码】

蜘蛛参考：import scrapy from scrapy.spiders import Spider from scrapy.selector import Selector from script.items import ScriptItemclass RunSpider(scrapy.Spider):name = "run"allowed_domains = ["stopitrightnow.com"]start_urls = ('http://www.stopitrightnow.com/',)def parse(self, response):for widget in response.xpath('//div[@class="shopthepost-widget"]'):#print widget.extract()item = ScriptItem()item...

如何将javascript渲染模块集成到scrapy中？【代码】

我正在开发一个网络抓取程序,但我遇到了一个使用scrapy生成javascript内容的问题.我知道scrapy不是用来做这种类型的刮擦,但我一直在尝试使用scrapyjs或splash来完成我需要的东西. 但是,我不能让这两个模块中的任何一个与scrapy一起正常工作.我的问题是,如果有人有一个最小的例子,他们可以显示使用scrapyjs或splash来呈现javascript页面？编辑：我的平台是ubuntu,我使用python.对于scrapyjs我只是把源放在scrapy项目的最上面的目录...

python – 使用Scrapy与Javascript和iFrames和替代品【代码】

我正在尝试使用Scrapy来刮取美国政府法规网站(www.regulations.gov).它有很多关于它的信息,但它是一个糟糕的网站,充满了javascript和iframe.我尝试运行一些简单的Scrapy蜘蛛,但我无法解析任何东西,因为所有东西都通过Javascript和iframe加载. 例如,在main search page上,这段代码实际上加载了结果表：<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script><title>Regulations.gov</title> <link rel="s...