<scrapy爬虫>爬取腾讯社招信息

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了<scrapy爬虫>爬取腾讯社招信息，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4135字，纯文字阅读大概需要6分钟。

内容图文

1.创建scrapy项目

dos窗口输入:

scrapy startproject tencent

cd tencent

2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义)

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    #职位名
    positionname = scrapy.Field()
    #链接
    positionlink = scrapy.Field()
    #类别
    positionType = scrapy.Field()
    #招聘人数
    positionNum = scrapy.Field()
    #工作地点
    positioncation = scrapy.Field()
    #职位名称
    positionTime = scrapy.Field()

3.创建爬虫文件

dos窗口输入:

scrapy genspider myspider tencent.com

4.编写myspider.py文件(接收响应,处理数据)

# -*- coding: utf-8 -*-
import scrapy
from tencent.items import TencentItem

class MyspiderSpider(scrapy.Spider):
    name = ‘myspider‘
    allowed_domains = [‘tencent.com‘]
    url = ‘https://hr.tencent.com/position.php?&start=‘
    offset = 0
    start_urls = [url+str(offset)]


    def parse(self, response):
        for each in response.xpath(‘//tr[@class="even"]|//tr[class="odd"]‘):
            #初始化模型对象
            item = TencentItem()
            # 职位名
            item[‘positionname‘] = each.xpath("./td[1]/a/text()").extract()[0]
            # 链接
            item[‘positionlink‘] = ‘http://hr.tencent.com/‘ + each.xpath("./td[1]/a/@href").extract()[0]
            # 类别
            item[‘positionType‘] = each.xpath("./td[2]/text()").extract()[0]
            # 招聘人数
            item[‘positionNum‘] = each.xpath("./td[3]/text()").extract()[0]
            # 工作地点
            item[‘positioncation‘] = each.xpath("./td[4]/text()").extract()[0]
            # 职位名称
            item[‘positionTime‘] = each.xpath("./td[5]/text()").extract()[0]
            yield item
        if self.offset < 2820:
            self.offset += 10
        else:
            raise ("程序结束")
        yield scrapy.Request(self.url+str(self.offset),callback=self.parse)

5.编写pipelines.py(存储数据)

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json

class TencentPipeline(object):
    def __init__(self):
        self.filename = open(‘tencent.json‘,‘wb‘)

    def process_item(self, item, spider):
        text =json.dumps(dict(item),ensure_ascii=False) + ‘,\n‘
        self.filename.write(text.encode(‘utf-8‘))
        return item

    def close_spider(self):
        self.filename.close()

6.编写settings.py(设置headers,pipelines等)

robox协议

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

headers

DEFAULT_REQUEST_HEADERS = {
    ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘,
    ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
  # ‘Accept-Language‘: ‘en‘,
}

pipelines

ITEM_PIPELINES = {
    ‘tencent.pipelines.TencentPipeline‘: 300,
}

7.运行爬虫

dos窗口输入:

scrapy crawl myspider

运行结果:

技术分享图片

查看debug:

2019-02-18 16:02:22 [scrapy.core.scraper] ERROR: Spider error processing <GET https://hr.tencent.com/position.php?&start=520> (referer: https://hr.tencent.com/position.php?&start=510)
Traceback (most recent call last):
  File "E:\software\ANACONDA\lib\site-packages\scrapy\utils\defer.py", line 102, in iter_errback
    yield next(it)
  File "E:\software\ANACONDA\lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 30, in process_spider_output
    for x in result:
  File "E:\software\ANACONDA\lib\site-packages\scrapy\spidermiddlewares\referer.py", line 339, in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "E:\software\ANACONDA\lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 37, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "E:\software\ANACONDA\lib\site-packages\scrapy\spidermiddlewares\depth.py", line 58, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "C:\Users\123\tencent\tencent\spiders\myspider.py", line 22, in parse
    item[‘positionType‘] = each.xpath("./td[2]/text()").extract()[0]

去网页查看:

技术分享图片

这个职位少一个属性- -!!!(城市套路多啊!)

那就改一下myspider.py里面的一行:

item[‘positionType‘] = each.xpath("./td[2]/text()").extract()[0]

加个判断,改为:

if len(each.xpath("./td[2]/text()").extract()) > 0:
　　item[‘positionType‘] = each.xpath("./td[2]/text()").extract()[0]
else:
　　item[‘positionType‘] = "None"

　运行结果:

技术分享图片

　看网站上最后一页:

技术分享图片

爬取成功!

爬虫>爬取腾讯社招信息' ref='nofollow'>爬虫>爬取腾讯社招信息

原文：https://www.cnblogs.com/shuimohei/p/10396406.html

内容总结

以上是互联网集市为您收集整理的<scrapy爬虫>爬取腾讯社招信息全部内容，希望文章能够帮你解决<scrapy爬虫>爬取腾讯社招信息所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1332848.html

来源：【匿名】

【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【<scrapy爬虫>爬取腾讯社招信息】教程文章相关的互联网学习教程文章

1.创建scrapy项目dos窗口输入:scrapy startproject tencent cd tencent 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义)# -*- coding: utf-8 -*-# Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass TencentItem(scrapy.Item):# define the fields for your item here like:#职位名positionname = scrapy.Field()#链...

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）【代码】【图】

Scrapy在window上的安装教程见下面的链接：Scrapy安装教程上述安装教程已实践，可行。本来打算在ubuntu上安装Scrapy的，但是Ubuntu 磁盘空间太少了，还没扩展磁盘空间，暂时不想再上面装太多软件。Scrapy的入门教程见下面链接：Scrapy入门教程上面的入门教程是很基础的，先跟着作者走一遍，要动起来哟，不要只是阅读上面的那篇入门教程，下面我简单总结一下Scrapy爬虫过程：1、在Item中定义自己要抓取的数据：movie_name就像是字典...

用Scrapy写一个爬虫【代码】

昨天用python谢了一个简单爬虫，抓取页面图片；但实际用到的爬虫需要处理很多复杂的环境，也需要更加的智能，重复发明轮子的事情不能干，再说python向来以爬虫作为其擅长的一个领域，想必有许多成熟的第三方框架，百度后选用了Scrapy作为平台构建复杂爬虫。 Scarpy的下载安装不必细说，话说当前只支持python2.x版本，很郁闷，下载安装了python2.7。安装完后，按照《Scrapy Tutorial》和Scrapy at a glance两篇帖子作为学习范本。...

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

不知不觉养成了一个习惯：完成一个工作或学习新知识后，要及时整理，否则过一段时间就忘记了。下面是用scrapy 爬虫框架读取行政区划的记录1. SelectorGadget 是个好东西，下载和安装可以网上查安装后，会在crome浏览器右上角有个图标。点击右上角这个图标后，进入css选取模式，（1）点击网页内容，被选取内容显示黄色，同时css选择器会显示在控制面板上。（2）再点击黄色内容，会变红色，表示排除这一项标签。如图：表...

使用Scrapyd部署Scrapy爬虫到远程服务器上

1、准备好爬虫程序2、修改项目配置　　找到项目配置文件scrapy.cnf,将里面注释掉的url解开来　　本代码需要连接数据库，因此需要修改对应的数据库配置　　　　其实就是将里面的数据库地址进行修改，变成远程数据库服务器地址，需要保证scrapy服务器能够连接数据库服务器3、部署项目　　在部署项目之前要保证scrapyd服务是开启状态。　　　　进入本地爬虫工程的目录　　执行对应的部署命令4、调度爬虫　　调度爬虫需要使用curl，以下...

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)【代码】【图】

转载请注明出处：http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题，我们都知道，现在很多的页面都是用动态加载的技术，这一方面带来了良好的页面体验，另一方面，在抓取时或者或少的带来了相当大的麻烦，因为我们知道直接get主页页面url，这些内容是没有办法显示的。那怎么处理这些内容呢？上图是一个直观的分析，在抓取数据时，我们一般优先考虑到手机端的网站，因为手机端的网站得到...

4.scrapy爬虫文件【代码】

scrapy.Spider这一节我们来聊一聊爬虫文件1. 请求发送# -*- coding: utf-8 -*- import scrapyclass BaiduSpider(scrapy.Spider):name = ‘baidu‘allowed_domains = [‘baidu.com‘]start_urls = [‘http://baidu.com/‘]def parse(self, response):print(response.text) 我们来一步一步分析这个文件中的代码是如何运行的1.1 start_urls这是一个列表, 列表的每一个元素都一个一个url, 当我们的爬虫启动的时候会循环这个列表, 然后会...

爬虫Scrapy框架-初学

安装： python -m pip install Scrapy创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）进入项目：cd xxx #进入某个文件夹下创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可! /* 其他生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)运...

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

一、Scrapy初识Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有很强通用性的项目模板。- Scrapy内容- 基于框架发起请求- 数据解析- 持久化存储- 核心组件的工作原理- 全站数据爬取- 深度爬取- 中间件- 分布式- 增量式原文：https://www.cnblogs.com/dai-zhe/p/14800745.html

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

一、CrawlSpider根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性.除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了.爬虫一般来说分为垂直爬取和水平爬取, 这里拿猫眼电影TOP100 举例. 垂直爬取就是从目录进入到内容详情后爬取, 即从当前页进入某一影片的详情页面; 水平爬取就是从这一页目录翻...

scrapy主动退出爬虫的代码片段(python3)【代码】

问题：在运行scrapy的过程中，如果想主动退出该怎么做？背景：比如说我只要爬取当日的新闻，那么在遍历的时候，如果出现了超过1条不是当日的新闻，那么就不爬取了，就主动退出爬虫，这个时候该怎么做呢？IDE：pycharm版本：python3框架：scrapy系统：windows10代码如下：# -*- coding: utf-8 -*-import scrapy from torrentSpider.items.NavigationItem import NavigationItem from torrentSpider.items.TorrentItem import Torren...

爬虫框架_scrapy1【代码】【图】

介绍： Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因...

scrapy进阶（CrawlSpider爬虫__爬取整站小说）【代码】

# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from crawlspider.items import CrawlspiderItemclass CrawlspidersSpider(CrawlSpider):name = ‘CrawlSpiders‘allowed_domains = [‘sbiquge.com‘]start_urls = [‘https://www.sbiquge.com/biqukan/‘]rules = (Rule(LinkExtractor(allow="/\d+?_\d+?/",unique=True),callback=‘pa...

SCRAPY - 相关标签

scrapy框架

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / <scrapy爬虫>爬取腾讯社招信息

<scrapy爬虫>爬取腾讯社招信息

内容导读

内容图文

1.创建scrapy项目

2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义)

3.创建爬虫文件

4.编写myspider.py文件(接收响应,处理数据)

5.编写pipelines.py(存储数据)

6.编写settings.py(设置headers,pipelines等)

7.运行爬虫

内容总结

内容备注

内容手机端

【<scrapy爬虫>爬取腾讯社招信息】教程文章相关的互联网学习教程文章