首页 / PYTHON / python爬取豆瓣影评存数据库【新手必入】

python爬取豆瓣影评存数据库【新手必入】

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬取豆瓣影评存数据库【新手必入】，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3942字，纯文字阅读大概需要6分钟。

内容图文

效果展示

python爬取豆瓣影评存数据库【新手必入】 - 文章图片

需要用到的库

import requests
from time import sleep
from lxml import etree
import pymysql

首先看看我们要爬的页面链接

https://movie.douban.com/subject/30313969/comments?start=0&limit=20&status=P&sort=new_score

这个链接只是第一页，我们要爬取所有的数据，就必须翻页一页一页的爬

我们先看看第二页的网页链接

https://movie.douban.com/subject/30313969/comments?start=20&limit=20&status=P&sort=new_score

我们发现 ?start= 这个地方出现了变化，从0 变成了 20 其他都没变， start中文意思是开始，简单分析可得，一页有二十个评论，所以后面的按照 ?start=40，?start=60 依次递增

可以写个for循环实现，也不爬取太多，前200个评论即可

for i in range(0,220,20):
    #转为字符串类型
    i = str(i)
    #将i代入
    url = 'https://movie.douban.com/subject/30313969/comments?start='+i+'&limit=20&status=P&sort=new_score'

添加UA伪装请求头

# UA伪装请求头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36'
}

按F12查看网页源代码，并分析数据

python爬取豆瓣影评存数据库【新手必入】 - 文章图片

使用xpath进行数据爬取

for i in range(0,220,20):
    #转为字符串类型
    i = str(i)
    #将i代入
    url = 'https://movie.douban.com/subject/30313969/comments?start='+i+'&limit=20&status=P&sort=new_score'

    response = requests.get(url=url,headers=header).text

    tree = etree.HTML(response)

    ul = tree.xpath('//div[@class="comment"]')

    #遍历二十个存储评论信息的div
    for li in ul:

        #网名
        name = li.xpath('.//span[@class="comment-info"]/a/text()')[0]

        #评价
        rating = li.xpath('.//span[@class="comment-info"]/span[2]/@title')[0]

        # 评论时间  # 评论时间  这里会有换行和许多空格
        timed = li.xpath('.//span[@class="comment-info"]/span[3]/text()')[0]
        #去掉空格
        times = timed.replace(" ",'')
        #去掉换行
        time = times.replace("\n", "")

        #评论
        comment = li.xpath('.//span[@class="short"]/text()')[0]
        
        print('网名：',name,'  评价：',rating,'  时间：',time,'  评论：',comment)

python爬取豆瓣影评存数据库【新手必入】 - 文章图片

接下来开始存入数据库

在数据库里创建一个叫douban的库，再创建一个叫data的表用于存放数据

python爬取豆瓣影评存数据库【新手必入】 - 文章图片

存入数据库

#连接数据库
conn = pymysql.connect(host='localhost', port=3306, user='数据库用户名', passwd='数据库密码', database='douban',charset='utf8')
# 生成游标对象
cur = conn.cursor()
#使用添加语句
sql1 = "INSERT INTO data VALUES (%s,%s,%s,%s)"
#这里写上sql1的四个%s对应的值
da = [name,rating,time,comment] #[网名,评价,时间,评论]
try:
    cur.execute(sql1, da)  # 执行插入的sql语句
    conn.commit()  # 提交到数据库执行
except Exception:
    # 发生错误时回滚
    conn.rollback()
    print("出现错误/可能与重复的值有关")
conn.close()  # 关闭数据库连接

完整代码

import requests
from time import sleep
from lxml import etree
import pymysql


# UA伪装请求头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36'
}

for i in range(0,200,20):
    #转为字符串类型
    i = str(i)
    #将i代入
    url = 'https://movie.douban.com/subject/30313969/comments?start='+i+'&limit=20&status=P&sort=new_score'

    response = requests.get(url=url,headers=header).text

    tree = etree.HTML(response)

    ul = tree.xpath('//div[@class="comment"]')

    #遍历二十个存储评论信息的div
    for li in ul:

        #网名
        name = li.xpath('.//span[@class="comment-info"]/a/text()')[0]

        #评价
        rating = li.xpath('.//span[@class="comment-info"]/span[2]/@title')[0]

        # 评论时间  # 评论时间  这里会有换行和许多空格
        timed = li.xpath('.//span[@class="comment-info"]/span[3]/text()')[0]
        #去掉空格
        times = timed.replace(" ",'')
        #去掉换行
        time = times.replace("\n", "")

        #评论
        comment = li.xpath('.//span[@class="short"]/text()')[0]

        #连接数据库
        conn = pymysql.connect(host='localhost', port=3306, user='数据库用户名', passwd='数据库密码', database='douban',charset='utf8')
        # 生成游标对象
        cur = conn.cursor()
        #使用添加语句
        sql1 = "INSERT INTO data VALUES (%s,%s,%s,%s)"
        #这里写上sql1的四个%s对应的值
        da = [name,rating,time,comment] #[网名,评价,时间,评论]
        try:
            cur.execute(sql1, da)  # 执行插入的sql语句
            conn.commit()  # 提交到数据库执行
        except Exception:
            # 发生错误时回滚
            conn.rollback()
            print("出现错误/可能与重复的值有关")
        conn.close()  # 关闭数据库连接

    #做一个进度条显示进度
    i = int(i)
    print("已将%s条评论存入数据库中"%i)

内容总结

以上是互联网集市为您收集整理的python爬取豆瓣影评存数据库【新手必入】全部内容，希望文章能够帮你解决python爬取豆瓣影评存数据库【新手必入】所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/863866.html

来源：【匿名】

【上一篇】记录一次python多版本和软连接指向不对导致的尴尬报错：import pymysql ModuleNotFoundError: No module named ‘pymysql‘【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python爬取豆瓣影评存数据库【新手必入】】教程文章相关的互联网学习教程文章

【python基础】用字典做一个小型的查询数据库【代码】

例子来源于《python基础教程》第三版，57p 该例子主要是使用字典的方式，实现一个小型的数据库，通过查询字典的键值来获取用户的信息。本人修改了部分代码。#!/usr/bin/python3 -*- coding:utf-8 -*- # 使用字典构建一个简单的数据库#导入模块，主要为了做异常退出 import os # 构建people字典，用来存储用户信息 people = {‘Ailce‘:{‘phone‘: ‘2341‘,‘addr‘: ‘Foo drive 23‘},‘Beth‘: {‘phone‘: ‘9102‘,‘addr...

Python/MySQL（四、MySQL数据库操作）【代码】

Python/MySQL（四、MySQL数据库操作）一、数据库条件语句：1 case when id>9 then ture else false二、三元运算：1if（isnull（xx）0,1）三、上下连表：select id，name from ta1 union 天然去重（检测上边的表和下边的表行内完全一样就只显示一行内容） select num,sname from tb2 ========================================== select id，name from ta1 union all 不去重 select num,sname from tb2 --------------------...

Python对数据库的增删改查操作【代码】

首先Python要连接MySQL数据库就必须先下载连接数据库的包，我是直接在pycharm里边用软件自动安装的，然后将数据的CRUD操作封装成了类，之后再使用的时候，直接引用这个文件对文件进行赋值即可，以下是代码： #encoding=utf-8import pymysql class jdbc_connect:‘数据库执行操作‘#执行对象cursor="";db=False;#连接数据库def__init__(self,host,username,password,database):try:jdbc_connect.db = pymysql.connect(host, usernam...

用python操作mysql数据库（之批量插入数据）【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*- import MySQLdb#建立连接 conn = MySQLdb.connect(host=‘127.0.0.1‘,user=‘root‘,passwd=‘1qaz#EDC‘,db=‘test_db‘) cur = conn.cursor()#对数据进行操作 li = [(‘tanzhenx‘,‘shaoguan‘),(‘huangmengdie‘,‘shaoguan‘)] #定义一个列表，列表中含多个元组，等会批量插入每个元组中的数据 cur.executemany(‘insert into user (name,address) values(%s,%s)‘,li) #批量...

python面试题网络编程和数据库【代码】

Python面试重点（进阶篇）注意：只有必答题部分计算分值，补充题不计算分值。第一部分必答题简述 OSI 7层模型及其作用？（2分）应用层表示层会话层传输层端口 udp tcp 四层交换机四层路由器网络层 Ipv4 路由器三层交换机数据链路层 mac arp协议网卡交换机物理层简述 TCP三次握手、四次回收的流程。（3分）# 1.三次握手是tcp协议建立连接的过程# 2.由客户端发起一个syn请求,服务端接收并回复 (syn\ack)# 客户端收...

Python使用MySQL数据库(新)【代码】

一，安装mysql 如果是windows 用户，mysql 的安装非常简单，直接下载安装文件，双击安装文件一步一步进行操作即可。Linux 下的安装可能会更加简单，除了下载安装包进行安装外，一般的linux 仓库中都会有mysql ，我们只需要通过一个命令就可以下载安装：Ubuntu\deepin>>sudo apt-get install mysql-server >>Sudo apt-get install mysql-clientcentOS/redhat>>yum install mysql 二，安装MySQL-python要想使python可以操作mysql 就...

Python中通过cx_Oracle访问数据库遇到的问题总结【代码】【图】

以下是Python中通过cx_Oracle操作数据库的过程中我所遇到的问题总结，感谢我们测试组的前辈朱勃给予的帮助最终解决了下列两个问题： 1）安装cx_Oracle会遇到的问题：在Windows下安装cx_Oracle不要尝试用pip install的方式了！下载官网的对应版本的msi安装文件，我的python2.7是32位的，oracle的instantClient也是32位的，这个cx_Oracle也选择32位的下载，安装成功后进入python模式下import cx_Oracle没问题，安装成功。 2）使...

python脚本——生成EXCEL，连接数据库，并将指定数据写入EXCEL

#!/usr/bin/python# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport MySQLdbimport sysimport xlsxwriterreload(sys)sys.setdefaultencoding(‘utf-8‘)#创建一个EXCEL文件workbook = xlsxwriter.Workbook(‘name.xlsx‘)#EXCEL的文件名#创建一个工作表对象worksheet_1 = workbook.add_worksheet(‘name_1‘)#sheet页面1的名字worksheet_2 = workbook.add_worksheet(‘name_2‘)#sheet页面2的名字#需要更多的sheet页面以此类推...

python2.7连接mysql数据库，并从插入数据【代码】

需要先导入mysqldb这个模块　　　　　　　　　　　　　　import MySQLdbconn= MySQLdb.connect( host=‘localhost‘, #主机，127.0.0.1 port = 3306,　　　　#端口 user=‘root‘,　　　　　#用户名 passwd=‘root‘,　　　　#密码 db =‘gupiao‘,　　　　　　#数据库名字 )cur = conn.cursor() cur.execute("insert into table_name(字段名字) values(后面要跟的值)")conn....

Django使用多数据库For python3【代码】

1、定义数据库在django项目中, 一个工程中存在多个APP应用很常见；有时候希望不同的APP连接不同的数据库，这个时候需要建立多个数据库连接。在Django的setting中使用DATABASES设置定义数据库，可以将数据库映射到特定的别名字典中;DATABASES定义的是要给嵌套字典，该设置必须配置default默认数据库。默认使用SQLite进行单一数据库设置：DATABASES = {‘default‘: {‘ENGINE‘: ‘django.db.backends.sqlite3‘,‘NAME‘: ‘mydat...

python连接数据库【代码】【图】

一、连接mysql1、安装库PyMySQL2、2种连接方式。# 第一种import pymysql# 直接生成db对象 db = pymysql.connect(host = ‘localhost‘,port = 3306,user = ‘root‘,password = ‘123‘,db = ‘mrsoft‘,charset = ‘utf8‘,cursorclass = pymysql.cursors.DictCursor) cursor = db.cursor() # 创建游标 # 第二种import pymysql# 通过字典的方式创建db对象 dictoj = {‘host‘: ‘localhost‘,‘port‘: 3306,‘user‘: ‘root‘,‘...

Python使用Alembic框架进行数据库版本管理【代码】

安装pip install alembic初始化alembic init alembic修改配置alembic.inisqlalchemy.url = driver://user:pass@localhost/dbname修改env.pyimport sys from logging.config import fileConfig from os.path import abspath, dirnamefrom alembic import context from sqlalchemy import engine_from_config from sqlalchemy import poolsys.path.append(dirname(dirname(abspath(__file__)))) from models.models import Base# thi...

使用Python查询MySQL数据库生成Excel文件发送监控周报。【代码】【图】

业务方要求每周发一封周报出来，将过去一周的线上项目的详细信息发送出来，我们的监控用的是zabbix，过去一直是手动填写，非常耗时耗力，而且显得非常不专业，所以我花了几个月时间学习Python，编写如下脚本供大家参考，望大神勿笑。 #!/usr/bin/env python #-*- coding: utf8 -*- import MySQLdb import string import xlsxwriter import time,datetime import sys reload(sys) sys.setdefaultencoding(‘utf-8‘)zdbhost = ‘ ‘...

Python数据库访问公共组件及模拟Http请求【代码】

前言　　最近一段时间除了忙于工作之外，在业余时，迷上了python，对它的跨平台深深的吸引。经过一段时间的自我学习，了解了其基本的语法，便开始自己着手摆弄起来。主要想把以前对接的接口再实现一次，以便于在做中发现问题，解决问题。只看不做，没有实际的操练，永远都是纸上谈兵。在此过程中遇到了许多问题，通过不断查询资料和请教基本完善了功能。现将自我觉得比较重要的部分拿出来和大家一起探讨一下，也顺便自己对此做个记...

python操作MySQL数据库【代码】

坚持每天学一点，每天积累一点点，作为自己每天的业余收获，这个文章是我在吃饭的期间写的，利用自己零散的时间学了一下python操作MYSQL，所以整理一下。我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧：import MySQLdbtry:conn=MySQLdb.connect(host=‘localhost‘,user=‘root‘,passwd=‘root‘,db=‘test‘,port=3306)cur=conn.cursor()cur.execute(‘select * from user‘)cur.close()conn.close() except MySQLd...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python爬取豆瓣影评存数据库【新手必入】

python爬取豆瓣影评存数据库【新手必入】

内容导读

内容图文

效果展示

完整代码

内容总结

内容备注

内容手机端

【python爬取豆瓣影评存数据库【新手必入】】教程文章相关的互联网学习教程文章

【python基础】用字典做一个小型的查询数据库【代码】

Python/MySQL（四、MySQL数据库操作）【代码】

Python对数据库的增删改查操作【代码】

用python操作mysql数据库（之批量插入数据）【代码】

python面试题网络编程和数据库【代码】

Python使用MySQL数据库(新)【代码】

Python中通过cx_Oracle访问数据库遇到的问题总结【代码】【图】

python脚本——生成EXCEL，连接数据库，并将指定数据写入EXCEL

python2.7连接mysql数据库，并从插入数据【代码】

Django使用多数据库For python3【代码】

python连接数据库【代码】【图】

Python使用Alembic框架进行数据库版本管理【代码】

使用Python查询MySQL数据库生成Excel文件发送监控周报。【代码】【图】

Python数据库访问公共组件及模拟Http请求【代码】

python操作MySQL数据库【代码】

PYTHON - 相关标签

数据库 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程