1. 使用内置,并加以修改 ( 自定义 redis 存储的 keys )settings 配置 # ############### scrapy redis连接 ####################REDIS_HOST = 140.143.227.206 # 主机名 REDIS_PORT = 8888 # 端口 REDIS_PARAMS = {password:beta} # Redis连接参数 默认:REDIS_PARAMS = {socket_timeout: 30,socket_connect_timeo...
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter=False 2. Jobs: 暂停,恢复爬虫 启用一个爬虫的持久化,运行以下命令: scrapy crawl somespider -s JOBDIR=crawls/somespider-1 然后,你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。 恢复这个爬虫也是同样的命令: scrapy crawl somespider -s JOBDIR=crawls/somespider-1 这样爬虫断掉后,再启动...