首页 / PYTHON / python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-如何在Scrapy中通过CrawlerProcess传递自定义设置？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1373字，纯文字阅读大概需要2分钟。

内容图文

python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

我有两个CrawlerProcesses,每个都调用不同的Spider.我想将自定义设置传递给这些过程之一,以将Spider的输出保存到csv,我想我可以这样做：

storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'}
process = CrawlerProcess(get_project_settings())
process.crawl('ABC', crawl_links=main_links, custom_settings=storage_settings )
process.start()

在我的蜘蛛网中,我把它们当作一个参数来阅读：

    def __init__(self, crawl_links=None, allowed_domains=None, customom_settings=None,  *args, **kwargs):
    self.start_urls = crawl_links
    self.allowed_domains = allowed_domains
    self.custom_settings = custom_settings
    self.rules = ......
    super(mySpider, self).__init__(*args, **kwargs)

但是如何将这些自定义设置告诉我的项目设置文件“ settings.py”？我不想对其进行硬编码,而是希望它们能够被自动读取.

解决方法:

您无法将这些设置告知您的文件.您可能对搜寻器设置和蜘蛛设置之间感到困惑.杂乱无章时,需要将发生这种扭曲时的进料参数传递给爬虫程序而不是蜘蛛.您必须将它们作为参数传递给搜寻器进程.我和您有相同的用例.您要做的是读取当前项目设置,然后为每个搜寻器过程覆盖它.请参见下面的示例代码：

s = get_project_settings()
s['FEED_FORMAT'] = 'csv'
s['LOG_LEVEL'] = 'INFO'
s['FEED_URI'] = 'Q1.csv'
s['LOG_FILE'] = 'Q1.log'

proc = CrawlerProcess(s)

然后您对process.crawl()的调用不正确.蜘蛛的名称应作为字符串的第一个参数传递,如下所示：process.crawl(‘MySpider’,crawl_links = main_links),当然MySpider应该是在蜘蛛类中为name属性指定的值.

内容总结

以上是互联网集市为您收集整理的python-如何在Scrapy中通过CrawlerProcess传递自定义设置？全部内容，希望文章能够帮你解决python-如何在Scrapy中通过CrawlerProcess传递自定义设置？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/666367.html

来源：【匿名】

【上一篇】如何在执行程序任务仍在等待控制台输入的情况下干净退出python异步应用【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-如何在Scrapy中通过CrawlerProcess传递自定义设置？】教程文章相关的互联网学习教程文章

Python 之 subprocess模块

一、subprocess以及常用的封装函数运行python的时候，我们都是在创建并运行一个进程。像Linux进程那样，一个进程可以fork一个子进程，并让这个子进程exec另外一个程序。在Python中，我们通过标准库中的subprocess包来fork一个子进程，并运行一个外部的程序。subprocess包中定义有数个创建子进程的函数，这些函数分别以不同的方式创建子进程，所以我们可以根据需要来从中选取一个使用。另外subprocess还提供了一些管理标准流(standa...

python 3.x 学习笔记16 (队列queue 以及 multiprocessing模块)【代码】

1.队列(queue)用法：import queue q = queue.Queue() #先进先出模式 q.put(1) #存放数据在q里作用: 1）解耦　　 2)提高效率class queue.Queue(maxsize=0) #先入先出class queue.LifoQueue(maxsize=0) #后进先出 class queue.PriorityQueue(maxsize=0) #存储数据时可设置优先级的队列Queue.qsize() ...

python 并发编程多进程 Process对象的其他属性方法 join 方法【代码】

一 Process对象的join方法在主进程运行过程中如果想并发地执行其他的任务，我们可以开启子进程，此时主进程的任务与子进程的任务分两种情况情况一：在主进程的任务与子进程的任务彼此独立的情况下，主进程的任务先执行完毕后，主进程还需要等待子进程执行完毕，然后统一回收资源。这种是没有join方法情况二：如果主进程的任务在执行到某一个阶段时，需要等待子进程执行完毕后才能继续执行，就需要有一种机制能够让主进程检测子进...

Python subprocess【代码】

#!/usr/bin/env python # -*- coding:utf-8 -*- # author: Changhua Gong import subprocess ‘‘‘ 1. 推荐使用subprocess模块代替其他模块执行shell命令； 2. call无论是否正确执行都会返回returncode attribute，即使执行命令报错了，后面的语句会继续执行， check_call & check_output执行命令报错后（returncode非0）直接抛出CalledProcessError，后续命令不再执行，可使用try...except...捕捉； 3. call无论是否...

【python】-- json & pickle、xml、requests、hashlib、shelve、shutil、configparser、subprocess【代码】

json & picklePython中用于序列化的两个模块json 用于【字符串】和【python基本数据类型】间进行转换pickle 用于【python特有的类型】和【python基本数据类型】间进行转换Json模块提供了四个功能：dumps、dump、loads、load1、dumps序列化和loads反序列化dumps()序列化import json #导入json模块 info = {‘name‘:"zhangqigao","age":22 }with open("test.txt","w") as f: #以普通模式写入data = json.dumps(info)...

python 系统编程之创建进程 create process【代码】【图】

一、forking 进程通过fork产生的进程有以下几个特点：是一个进程的克隆。创建的进程独立于父进程单独存在。线程在调用fork()那那点被复制执行。在子线程中返回0。在父线程中返回子线程的pid子线程的PID不同于父线程。二、代码示例#!/usr/bin/env pythonimport osdefchild_process():print"I am the child process and my PID is : %d" % os.getpid()print"teh child is exiting."defparent_process():print"I am the parent proce...

Python中模块之logging & subprocess的讲解【代码】

subprocess & logging模块的介绍1. subprocess该模块替代了os.system & os.pawn*所实现的功能。2. logging1. 日志五大级别 level means levelno 1. DEBUG 详细信息，调试时用 10 2. INFO 工作预期内容 20 3. WARNING(WARN) 警告，程序运行正常 30 4. ERROR 错误，程序部分功能不能实现 40 5. CRITICAL(FATAL) 致命错误，程序不...

Python多进程并发(multiprocessing)

A manager returned by Manager() will support types list, dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Queue, Value and Array. For example,from multiprocessing import Process, Managerdef f(d, l): d[1] = ‘1‘ d[‘2‘] = 2 d[0.25] = None l.reverse()if __name__ == ‘__main__‘: manager = Manager() d = manager.dict() l = manager.list(range(10)) p...

Python 多进程编程之multiprocessing--Process【代码】

Python 多进程编程之multiprocessing1,Process跨平台的进程创建模块(multiprocessing), 支持跨平台:windowx/linux创建和启动创建格式:p=Process(target=函数名)----def __init__(self, group=None, target=None, name=None, args=(), kwargs={}):group:分组(基本不用)target:表示这个进程实例所调用的对象.name:给进程起一个别名args:参数,表示调用对象的位置参数元组kwargs:表示调用对象的关键字参数字典注意:target后是函数...

python子进程模块subprocess详解与应用实例之三

二、应用实例解析2.1 subprocess模块的使用1. subprocess.call>>> subprocess.call(["ls", "-l"]) 0 >>> subprocess.call("exit 1", shell=True) 1 2. 调用系统中cmd命令,显示命令执行的结果: x=subprocess.check_output(["echo", "Hello World!"],shell=True) print(x) "Hello World!" 3. 在python中显示文件内容: y=subprocess.check_output(["type", "app2.cpp"],shell=True) print(y) #include using namespac...

python多进程-----multiprocessing包【代码】

multiprocessing并非是python的一个模块，而是python中多进程管理的一个包，在学习的时候可以与threading这个模块作类比，正如我们在上一篇转载的文章中所提，python的多线程并不能做到真正的并行处理，只能完成相对的并发处理，那么我们需要的就是python的多进程来完成并行处理，把所有的cpu资源都利用起来。multiprocessing的很大一部分与threading使用同一套API，只不过换到了多进程的环境。这里面要注意，对于多进程来说，win3...

Python利用subprocess起进程【代码】

from multiprocessing import Process, Pool import time import subprocessdef task(msg):print‘hello, %s‘ % msgtime.sleep(1)def test_pool():pool = Pool(processes=4)for x in range(10):pool.apply_async(task, args=(x,))print"for end"pool.close()print"pool close"pool.join()print"pool join"print‘processes done.‘def test_process():p = Process(target=task, args=(command,))p.start()p.join()if__name__ == ‘...

Python内置模块之subprocess【代码】

import subprocess ret = subprocess.Popen(‘netstat -ano‘,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE) # PIPE管道print(ret.stdout.read().decode(‘gbk‘)) # 需要解码print(ret.stderr.read().decode(‘gbk‘)) # 需要解码原文：https://www.cnblogs.com/wc89/p/10422937.html

python编译报错： make[3]: * wait: No child processes. Stop.make: * [Makefile:510: profile-run-stamp] Error 2

这是树莓派zero W的硬件原因：只有可怜的一个processer 所以子进程创建失败解决方法编译时加入-j 选项 make -j 1 即可。参考https://github.com/openresty/openresty/issues/22原文：https://www.cnblogs.com/lyzz1314/p/12874294.html

python 执行系统命令---suprocess模块【代码】【图】

1.suproess模块。可以执行系统命令，windows命令或者linux名都可以。os模块也可以执行系统命令。但是推荐使用suproess模块 2.具体用法：import subprocess # res=subprocess.Popen(‘dir D:\python_project‘,shell=True) #逗号前面是要执行的命令（列出指定目录下的所有文件），后面的shell=True是执行命令的意思。 # print(res) #这样打印的是拿到一个内存值，并且把结果输出到屏幕。 res=subprocess.Popen(‘dir D:\python_p...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-如何在Scrapy中通过CrawlerProcess传递自定义设置？】教程文章相关的互联网学习教程文章

Python 之 subprocess模块

python 3.x 学习笔记16 (队列queue 以及 multiprocessing模块)【代码】

python 并发编程多进程 Process对象的其他属性方法 join 方法【代码】

Python subprocess【代码】

【python】-- json & pickle、xml、requests、hashlib、shelve、shutil、configparser、subprocess【代码】

python 系统编程之创建进程 create process【代码】【图】

Python中模块之logging & subprocess的讲解【代码】

Python多进程并发(multiprocessing)

Python 多进程编程之multiprocessing--Process【代码】

python子进程模块subprocess详解与应用实例之三

python多进程-----multiprocessing包【代码】

Python利用subprocess起进程【代码】

Python内置模块之subprocess【代码】

python编译报错： make[3]: * wait: No child processes. Stop.make: * [Makefile:510: profile-run-stamp] Error 2

python 执行系统命令---suprocess模块【代码】【图】

PYTHON - 相关标签

自定义 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程