scrapy配置mysql

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了scrapy配置mysql，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1454字，纯文字阅读大概需要3分钟。

内容图文

在pipeline.py里面新建一个类

class mysqlPipeline(object):
    def process_item(self,item,spider):
        '''
        将爬取的信息保存到mysql
        '''
        # 将item里的数据拿出来
        # title = item['title']
        # link = item['link']
        # posttime = item['posttime']
        name = item['name']
        state = item['state']
        author = item['author']
        _type = item['_type']
        update = item['update']
        data_chapter = item['data_chapter']
        # 和本地的newsDB数据库建立连接
        db = pymysql.connect(
            host='localhost',  # 连接的是本地数据库
            user='root',  # 自己的mysql用户名
            passwd='root',  # 自己的密码
            db='test',  # 数据库的名字
            charset='utf8mb4',  # 默认的编码方式：
            cursorclass=pymysql.cursors.DictCursor)
        try:
            # 使用cursor()方法获取操作游标
            cursor = db.cursor()
            # SQL 插入语句
            sql = "INSERT INTO NEWS(name, state, author, _type, update, data_chapter)                   VALUES ('{0}', '{1}', '{2}', '{3}', '{4}', '{5}')".format(name, state, author, _type, update, data_chapter)
            # 执行SQL语句
            cursor.execute(sql)
            # 提交修改
            db.commit()
        finally:
            # 关闭连接
            db.close()
        return item

我们需要在Settings.py将我们写好的PIPELINE添加进去

ITEM_PIPELINES={
    'manhua.pipelines.mysqlPipeline': 100,
}

在mysql中创建数据库和表

# 创建数据库：scrapyDB ,以utf8位编码格式，每条语句以’；‘结尾
CREATE DATABASE scrapyDB CHARACTER SET 'utf8';
# 选中刚才创建的表：
use scrapyDB;
# 创建我们需要的字段：字段要和我们代码里一一对应，方便我们一会写sql语句
CREATE TABLE detailed(
    id INT AUTO_INCREMENT,
    name char(24),
    state char(24),
    author char(128),
    _type char(24),
    _update char(24),
    data_chapter char(24),
    PRIMARY KEY(id)
)ENGINE=InnoDB DEFAULT CHARSET='utf8';

内容总结

以上是互联网集市为您收集整理的scrapy配置mysql全部内容，希望文章能够帮你解决scrapy配置mysql所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/915922.html

来源：【匿名】

【上一篇】MySQL优化之explain 【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【scrapy配置mysql】教程文章相关的互联网学习教程文章

以scrapy爬虫爬取简书中全部的页面详情数据为例：1.cmd执行scrapy genspider -t crawl jbooks jianshu.com 创建完爬虫项目后最好为其创建一个脚本启动文件start.py 文件在项目根目录即可from scrapy import cmdline #启动爬虫命令 cmdline.execute(‘scrapy crawl js‘.split())去配置文件更改默认的配置信息：1.robot协议必须改为falseROBOTSTXT_OBEY = False2.添加准备好的请求头信息，防止被网站识别：DEFAULT_REQUEST_HEADERS ...

scrapy爬取数据后存储在本地mysql数据库中【代码】

话不多说，直接上代码 1# -*- coding: utf-8 -*- 2 3# Define your item pipelines here 4#5# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting 6# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html 7import pymysql8class MysqlPipeline(object):9"""10 同步操作 11"""1213def__init__(self): 14# 建立连接15 self.conn = pymysql.connect(host=‘localhost‘,user=‘root‘,pass...

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

本文主要为大家分享一篇J如何使用scrapy框架循环爬京东数据后导入Mysql的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。爬取数据是京东商城的手机信息 URL：https://list.jd.com/list.html?cat=9987,653,655&page=1大概是9000多条数据，不在列表之内的商品没有算在内。遇到的问题：1、用户代理最好是用方法（use_proxy）封装起...

scrapy爬虫成长日记之将抓取内容写入mysql数据库【代码】

2.7.10 (default, Jun 5 2015, 17:56:24) [GCC 4.4.4 20100726 (Red Hat 4.4.4-13)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import MySQLdb Traceback (most recent call last):File "<stdin>", line 1, in <module> ImportError: No module named MySQLdb 如果出现：ImportError: No module named MySQLdb则说明python尚未支持mysql，需要手工安装，请参考步骤2；如果没有报错...

一淘搜索网页抓取系统的分析与实现（3）—scrapy+webkit &amp; mysql+django

scrapy+webkit：如结构图③。 scrapy不能实现对javascript的处理，所以须要webkit解决问题。开源的解决方式能够选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapywebkit的使用后期进行分析。 scrapy+django: 如结构图④。 django实现的配置界面主要是对抓取系统的管理和配置，包含：网站feed、页面模块抽取、报表系统的反馈等等。请直接參考： [1]高速构建实时抓取集群 [2]淘宝摘星文章链接：http://blog.csdn.net/u0...

linux下安装python、scrapy、redis、mysql【代码】

.org/ftp/python/2.7.11/Python-2.7.11.tgz tar zxvf Python-2.7.11.tgz cd Python-2.7.11 ./configure --prefix=/usr/local make && make altinstall检查Python版本 python -V安装scrapy安装python-develyum search all python-devel yum install python-devel.x86_64安装setuptoolswget --no-check-certificate https://bootstrap.pypa.io/ez_setup.py–2016-05-10 10:48:35– https://bootstrap.pypa.io/ez_setup.py Resol...

scrapy MysqlPipeline 同步和异步【代码】

import MySQLdb import MySQLdb.cursorsclass MysqlPipeline(object): #采用同步的机制写入mysql def __init__(self): self.conn = MySQLdb.connect(‘192.168.0.106‘, ‘root‘, ‘root‘, ‘article_spider‘, charset="utf8", use_unicode=True) self.cursor = self.conn.cursor() def process_item(self, item, spider): insert_sql = """ insert into jobbole_article(title...

Scrapy基础(十二)————异步导出Item数据到Mysql中【代码】

1 from twisted.enterprise import adbapi2 class MysqlTwistedPipeline(object):3 ‘‘‘4 异步机制将数据写入到mysql数据库中5 ‘‘‘6 #创建初始化函数，当通过此类创建对象时首先被调用的方法7 def __init__(self,dbpool):8 self.dbpool = dbpool9 #创建一个静态方法,静态方法的加载内存优先级高于init方法，java的static方法类似， 10 #在创建这个类的对之前就已将加载到了内存中，所以i...

scrapy实战8关于数据异步写入mysql：【代码】

from twisted.enterprise import adbapi2 import pymysql3 import pymysql.cursors4 5 6 class MysqlTwistedPipeline(object):7 def __init__(self,dbpool):8 self.dbpool=dbpool9 10 @classmethod 11 def from_settings(cls,settings): 12 dbpool=adbapi.ConnectionPool("pymysql",host=settings["MYSQL_HOST"],db=settings["MYSQL_DBNAME"],user=settings["MYSQL_USER"],password=settings["MYSQL_...

python---scrapy之MySQL同步存储【代码】

pipeline用来存储item中的数据,将爬取到的数据进行二次处理首先,要做的准备的工作,安装MySQLdb,我安装的是Python-MySQL1.2.5模块. 自定义一个pipeline用mysql来存储item中的数据class MySQLPipeline(object):#自定义一个pipeline用mysql来存储item中的数据def __init__(self):# 代码连接数据库# 1)连接# 连接的数据库必须存在db = MySQLdb.Connect(host=‘localhost‘, user=‘root‘, passwd=‘123456‘, db=‘testdb‘, charset...

scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）【代码】

python版本 python2.7 爬取知乎流程:一、分析　在访问知乎首页的时候（https://www.zhihu.com），在没有登录的情况下，会进行重定向到（https://www.zhihu.com/signup?next=%2F）这个页面，爬取知乎，首先要完成登录操作,登陆的时候观察往那个页面发送了post或者get请求。可以利用抓包工具来获取登录时密码表单等数据的提交地址。1、利用抓包工具，查看用户名密码数据的提交地址页就是post请求,将表单数据提交的网址,经过查看。是...

scrapy数据存储在mysql数据库的两种方式【代码】【图】

pymysqlclass LvyouPipeline(object):def __init__(self):# connection databaseself.connect = pymysql.connect(host=‘XXX‘, user=‘root‘, passwd=‘XXX‘, db=‘scrapy_test‘) # 后面三个依次是数据库连接名、数据库密码、数据库名称# get cursorself.cursor = self.connect.cursor()print("连接数据库成功")def process_item(self, item, spider):# sql语句insert_sql = """insert into lvyou(name1, address, grade, sco...

scrapy安装cryptography&gt;=0.2.1出现Nopackage&#3

1 安装好的 scrapy 运行出现 pkg_resources.DistributionNotFound: cryptography=0.2.1 于是运行 easy_install cryptography 但是报 No package libffi found错误 2 检查 yum installlibffi 但是提示libffi 已经安装 3 由于easy_install cryptography 是1 安装好的 scrapy 运行出现pkg_resources.DistributionNotFound: cryptography>=0.2.1 于是运行 easy_install cryptography 但是报 No package libffi found错误 2 检查 y...

scrapy将爬取的招聘信息存入MySQL【代码】【图】

写这篇文章的目的就是为自己的学习做一下笔记，记录一下python如何连接和操作MySQL。既然要用python操作MySQL，就要导入操作MySQL的模块，python3.0+要用pymysql这个模块。爬取网址：https://www.liepin.com/因为只是记录python操作MySQL，所以就简单的选择了网址首页的几条信息(招聘公司，招聘岗位，月薪，位置)来作为写入数据库的内容，插入数据量大的信息所用方法是相同的。代码部分爬虫部分import scrapyfrom ..items import ...

scrapy爬取当当网整个悬疑类的书籍的src，name，img，mysql入库【代码】

目标URL: http://category.dangdang.com/cp01.01.04.00.00.00.html item.py # Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DangdangItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()src = scrapy.Field()name = scrapy.Field()price = scrapy.Field() dang.py import scrapy from...

MYSQL - 技术教程分类

MySQL 教程 MySQL 安装 MySQL 管理 MySQL PHP 语法 MySQL 连接 MySQL 创建数据库 MySQL 删除数据库 MySQL 选择数据库 MySQL 数据类型 MySQL 创建数据表 MySQL 删除数据表 MySQL 插入数据 MySQL 查询数据 MySQL WHERE 子句 MySQL UPDATE 更新 MySQL DELETE 语句 MySQL LIKE 子句 MySQL UNION MySQL 排序 MySQL 分组 MySQL 连接的使用 MySQL NULL 值处理 MySQL 事务 MySQL ALTER命令 MySQL 索引 MySQL 临时表 MySQL 复制表 MySQL 元数据 MySQL 序列使用 MySQL 处理重复数据 MySQL 及 SQL 注入 MySQL 导出数据 MySQL 导入数据 MySQL 函数 MySQL 运算符 mysql 全部

MYSQL - 最热教程

sql分组取最大记录方法 mysql如何设置默认值 mysql创建数据表时指定默认值教程 MySQL 5.7 的初始化操作（root初始密码...Oracle中合并数据集(多行变一行)mysql 相同内容的字段合并为一条的方法解决mysql设置时区时的错误Unknown or ...解决ubuntu下mysql的'Access denied fo...ubuntu系统中MysqlERROR1045(28000)报错...mysql数据库设置不区分大小写

首页 / MYSQL / scrapy配置mysql

scrapy配置mysql

内容导读

内容图文

内容总结

内容备注

内容手机端

【scrapy配置mysql】教程文章相关的互联网学习教程文章

scrapy爬取的数据异步存储至MySQL【代码】

scrapy爬取数据后存储在本地mysql数据库中【代码】

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

scrapy爬虫成长日记之将抓取内容写入mysql数据库【代码】

一淘搜索网页抓取系统的分析与实现（3）—scrapy+webkit &amp; mysql+django

linux下安装python、scrapy、redis、mysql【代码】

scrapy MysqlPipeline 同步和异步【代码】

Scrapy基础(十二)————异步导出Item数据到Mysql中【代码】

scrapy实战8关于数据异步写入mysql：【代码】

python---scrapy之MySQL同步存储【代码】

scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）【代码】

scrapy数据存储在mysql数据库的两种方式【代码】【图】

scrapy安装cryptography&gt;=0.2.1出现Nopackage&#3

scrapy将爬取的招聘信息存入MySQL【代码】【图】

scrapy爬取当当网整个悬疑类的书籍的src，name，img，mysql入库【代码】

MYSQL - 相关标签

配置 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程