首页 / AJAX / python – scrapy爬行蜘蛛ajax分页

python – scrapy爬行蜘蛛ajax分页

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – scrapy爬行蜘蛛ajax分页，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3391字，纯文字阅读大概需要5分钟。

内容图文

我试图删除有ajax调用分页的链接.
我正在尝试抓取http://www.demo.com链接.在.py文件中我提供了限制XPATH的代码,编码是：

# -*- coding: utf-8 -*-
import scrapy

from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.spiders import sumSpider, Rule
from scrapy.selector import HtmlXPathSelector
from sum.items import sumItem

class Sumspider1(sumSpider):
    name = 'sumDetailsUrls'
    allowed_domains = ['sum.com']
    start_urls = ['http://www.demo.com']
    rules = (
        Rule(LinkExtractor(restrict_xpaths='.//ul[@id="pager"]/li[8]/a'), callback='parse_start_url', follow=True),
    )

    #use parse_start_url if your spider wants to crawl from first page , so overriding 
    def parse_start_url(self, response):
        print '********************************************1**********************************************'
        #//div[@class="showMoreCars hide"]/a
        #.//ul[@id="pager"]/li[8]/a/@href
        self.log('Inside - parse_item %s' % response.url)
        hxs = HtmlXPathSelector(response)
        item = sumItem()
        item['page'] = response.url
        title = hxs.xpath('.//h1[@class="page-heading"]/text()').extract() 
        print '********************************************title**********************************************',title
        urls = hxs.xpath('.//a[@id="linkToDetails"]/@href').extract()
        print '**********************************************2***url*****************************************',urls

        finalurls = []       

        for url in urls:
            print '---------url-------',url
            finalurls.append(url)          

        item['urls'] = finalurls
        return item

我的items.py文件包含

from scrapy.item import Item, Field


class sumItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    page = Field()
    urls = Field()

当我抓取它时,我仍然没有得到确切的输出无法获取所有页面.

解决方法:

我希望下面的代码会有所帮助.

somespider.py

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.spider import BaseSpider
from demo.items import DemoItem
from selenium import webdriver

def removeUnicodes(strData):
        if(strData):
            strData = strData.encode('utf-8').strip() 
            strData = re.sub(r'[\n\r\t]',r' ',strData.strip())
        return strData

class demoSpider(scrapy.Spider):
    name = "domainurls"
    allowed_domains = ["domain.com"]
    start_urls = ['http://www.domain.com/used/cars-in-trichy/']

    def __init__(self):
        self.driver = webdriver.Remote("http://127.0.0.1:4444/wd/hub", webdriver.DesiredCapabilities.HTMLUNITWITHJS)

    def parse(self, response):
        self.driver.get(response.url)
        self.driver.implicitly_wait(5)
        hxs = Selector(response)
        item = DemoItem()
        finalurls = []
        while True:
            next = self.driver.find_element_by_xpath('//div[@class="showMoreCars hide"]/a')

            try:
                next.click()
                # get the data and write it to scrapy items
                item['pageurl'] = response.url
                item['title'] =  removeUnicodes(hxs.xpath('.//h1[@class="page-heading"]/text()').extract()[0])
                urls = self.driver.find_elements_by_xpath('.//a[@id="linkToDetails"]')

                for url in urls:
                    url = url.get_attribute("href")
                    finalurls.append(removeUnicodes(url))          

                item['urls'] = finalurls

            except:
                break

        self.driver.close()
        return item

items.py

from scrapy.item import Item, Field

class DemoItem(Item):
    page = Field()
    urls = Field()
    pageurl = Field()
    title = Field()

注意：
您需要运行selenium rc服务器,因为HTMLUNITWITHJS仅使用Python与selenium rc一起使用.

运行发出命令的selenium rc服务器：

java -jar selenium-server-standalone-2.44.0.jar

使用命令运行您的蜘蛛：

spider crawl domainurls -o someoutput.json

内容总结

以上是互联网集市为您收集整理的python – scrapy爬行蜘蛛ajax分页全部内容，希望文章能够帮你解决python – scrapy爬行蜘蛛ajax分页所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/786237.html

来源：【匿名】

【上一篇】Java基于过滤器进行重定向不成功的问题（Ajax只支持局部刷新）【下一篇】AJAX for PHP简单表数据查询实例

更多 ►

【python – scrapy爬行蜘蛛ajax分页】教程文章相关的互联网学习教程文章

Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息（以采集微信公众号文章列表为例）【图】

对于网页的采集有这样几种:1.静态网页2.动态网页（需进行js,ajax动态加载数据的网页）3.需进行模拟登录后才能采集的网页4.加密的网页3，4的解决方案和思路会在后续blog中陈述现在只针对1，2的解决方案与思路：一.静态网页? ? ? 对于静态网页的采集解析方法很多很多！java,python都提供了很多的工具包或框架，例如java的httpclient,Htmlunit,Jsoup,HtmlParser等，Python的urllib,urllib2,BeautifulSoup,Scrapy等,不详述，网上资料很...