首页 / PYTHON / python实现爬取微博热搜存入Mysql

python实现爬取微博热搜存入Mysql

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python实现爬取微博热搜存入Mysql，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2685字，纯文字阅读大概需要4分钟。

内容图文

免费学习推荐：python视频教程

python爬取微博热搜存入Mysql

- 最终的效果
- 使用的库
- 目标分析
- 一：得到数据
- 二：链接数据库
- 总代码

最终的效果

废话不多少，直接上图
python实现爬取微博热搜存入Mysql - 文章图片
这里可以清楚的看到，数据库里包含了日期，内容，和网站link
下面我们来分析怎么实现

使用的库

import requests
from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

目标分析

这是微博热搜的link：点我可以到目标网页
python实现爬取微博热搜存入Mysql - 文章图片
首先我们使用selenium对目标网页进行请求
然后我们使用xpath对网页元素进行定位，遍历获得所有数据
然后使用pandas生成一个Dataframe对像，直接存入数据库

一：得到数据

python实现爬取微博热搜存入Mysql - 文章图片
我们看到，使用xpath可以得到51条数据，这就是各热搜，从中我们可以拿到链接和标题内容

	all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')  #得到所有数据
	context = [i.text for i in c]  # 得到标题内容
    links = [i.get_attribute('href') for i in c]  # 得到link

然后我们再使用zip函数，将date，context，links合并
zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。

dc = zip(dates, context, links)
    pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

其中date可以使用time模块获得

二：链接数据库

这个很容易

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")

总代码

from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd


def get_data():
    url = r"https://s.weibo.com/top/summary"  # 微博的地址
    option = ChromeOptions()
    option.add_argument('--headless')
    option.add_argument("--no-sandbox")
    browser = Chrome(options=option)
    browser.get(url)
    all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
    context = [i.text for i in all]
    links = [i.get_attribute('href') for i in all]
    date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
    dates = []
    for i in range(len(context)):
        dates.append(date)
    # print(len(dates),len(context),dates,context)
    dc = zip(dates, context, links)
    pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
    # pdf.to_sql(name=in, con=enging, if_exists="append")
    return pdf


def w_mysql(pdf):
    try:
        enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
        pdf.to_sql(name='infromation', con=enging, if_exists="append")
    except:
        print('出错了')


if __name__ == '__main__':
    xx = get_data()
    w_mysql(xx)

希望能够帮到大家一点，大家一起共同进步，共同成长！
祝大家新年快乐！！！

相关免费学习推荐：python教程（视频）

以上就是python实现爬取微博热搜存入Mysql的详细内容。

本文系统来源：https://www.php.cn/python-tutorials-469424.html

内容总结

以上是互联网集市为您收集整理的python实现爬取微博热搜存入Mysql全部内容，希望文章能够帮你解决python实现爬取微博热搜存入Mysql所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/423206.html

来源：【匿名】

【上一篇】pandas如何读取excel文件【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python实现爬取微博热搜存入Mysql】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

这是之前做的一个小项目。这几天刚好整理了一些相关资料，顺便就在这里做一个梳理啦~ 简单来说这个项目实现了，登录人人网并爬取用户数据。并对用户数据进行分析挖掘，终于效果例如以下：1、存储人人网用户数据（户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页）。2、信息可视化，绘制户主好友间的关系网络图；3、数据挖掘，通过分析户主好友关注的公共主页，向户主推荐公共主页。项目分为三个部分，各自是人...

python实现排序算法（一）——插入排序算法【代码】

1‘‘‘ 2插入排序算法3原始数据data4排序数据后数据SortedData,默认是从小打大排序5 61.从data第一个元素开始，该元素赋值给SortedData[0],可以认为SortedData已经被排序 7 82.取出data的一个元素data[i],9 (1)从左到右扫描SortedData， 10 如果data[i]小于SortedData的某个元素SD，那么将data[i]插入SD的位置,选取下一个元素 11 (1)如果data[i]大于SortedData最后一个元素，将data[1]插入到SortedData的末尾，选取下...

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

1、GET方式： # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.py # codedtime: 2014-9-20 19:07:04import bottledef check_login(username, password):if username == ‘123‘ and password == ‘234‘:return Trueelse:return False@bottle.route(‘/login‘) def login():if bottle.request.GET.get(‘do_submit‘,‘‘).strip(): #点击登录按钮# 第一种方式(latin1编码) ## username = bottle.requ...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

TOPk实现(python)【代码】

import heapqclass TopK:def__init__(self, iterable, k):self.minheap = []self.capacity = kself.iterable = iterabledef push(self, val):if len(self.minheap) >= self.capacity:min_val = self.minheap[0]if val < min_val: passelse:heapq.heapreplace(self.minheap, val) else:heapq.heappush(self.minheap, val) def get_topk(self):for val in self.iterable:self.push(val)return self.minheapdef test():import rando...

Python封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应【图】

封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应代码：def info(l):l1 = l[:]for i in range(len(l)):v = l.count(l[i])if l1.count(l[i]) > 1:for j in range(1, v):l1.remove(l[i])return l1print(info([1, 2, 3, 4, 2, 3, 6, 2]))思想：统计相同元素出现的次数，然后删除到1原文：http://blog.51cto.com/13241097/2114105

Python + Opencv2 实现轮廓提取，轮廓区域面积计算【代码】【图】

对图像处理时，会遇到这样一个场景：找到图像主体轮廓，这是其一，可能为了凸显轮廓，需要用指定的颜色进行标记；轮廓标记完可能任务还没有结束，还需对轮廓所勾勒的像素面积区域统计计算。本篇文章的主要内容就是要解决上面场景遇到的三个问问题找到图像主题轮廓；用指定颜色对源图像进行轮廓标记；计算轮廓中的主体;实验环境配置为 Python + Opencv 3.4，处理的图像如下：第一步，提取轮廓，Opencv 中的 findContours() 函数可...

选择排序python实现【代码】

选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小（或最大）的一个元素，存放在序列的起始位置，直到全部待排序的数据元素排完。注意每次查找到最小值之后要将之从原列表中弹出，避免重复查找。 1def findsmallest(d):2 smallest = d[0]3 smallest_number = 04for i in range(1,len(d)):5if smallest > d[i]:6 smallest = d[i]7 smallest_...

Python实现二叉树的非递归先序遍历【代码】

思路：1. 使用列表保存结果；2. 使用栈（列表实现）存储结点；3. 当根结点存在，保存结果，根结点入栈；4. 将根结点指向左子树；5. 根结点不存在，栈顶元素出栈，并将根结点指向栈顶元素的右子树；6. 重复步骤3-6，直到栈空。LeetCode: 144. Binary Tree Preorder Traversal# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x# self.left = None# ...

Python学习——实现简单的交互raw_input的使用【代码】

row_input的使用：>>> name=raw_input("please input your name:") please input your name:xiaobai >>> name ‘xiaobai‘编写小程序，询问用户姓名，性别，年龄，工作，工资，以格式化的方式输出：Information of company stuff：Name：Age：Sex：Job：代码：[root@nfs-server ~]# vim information_of_stuff.py #!/bin/python name=raw_input("Please input your name:") age=raw_input("Please input your age:") sex=raw_inp...

python实现线性规划【代码】【图】

python工具包scipy linprog函数格式scipy.optimize.linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None, bounds=None, method=‘simplex‘, callback=None, options=None)官方文档 https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linprog.html实例minmize: -7x1+7x2-2x3-x4-6x5s.t.: 3x1-x2+x3-2x4=-3 2x1+x2+x4+x5=4 -x1+3x2-3x4+x6=12 xi>=0程序代码：import numpy ...

从函数内函数定义看python的函数实现

一、问题在C/C++中，函数的定义本质上是在编译阶段完成，而函数调用是由链接完成。但是对于python这种语言，函数的定义和调用都是由解释器在运行时完成，或者说，解释器在执行函数定义的时候，同样是生成了虚拟机指令，这个指令通常可以理解为MAKE_FUNCTION这个虚拟机指令，这个指令生成的则是一个PyFunctionObject对象。对应的，在函数调用的时候执行的是CALL_FUNCTION，这个指令需要生成一个PyFrameObject对象。二、CALL_FUNCTIO...

python random() 简单实现验证码【代码】

import randomwhile True: code = ‘‘ for i in range(4): current = random.randrange(0,4) if current == i: temp = chr(random.randint(65,90)) else: temp = str(random.randint(0,9)) code+=temp print(code) input_user = input("请输入验证码：") if input_user == code: print("。。。。。。。。。欢迎。。。。。。。") break else: ...

LeetCode 剑指 Offer 09. 用两个栈实现队列 | Python【代码】【图】

剑指 Offer 09. 用两个栈实现队列题目来源：力扣（LeetCode）https://leetcode-cn.com/problems/yong-liang-ge-zhan-shi-xian-dui-lie-lcof题目用两个栈实现一个队列。队列的声明如下，请实现它的两个函数 appendTail 和 deleteHead ，分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素，deleteHead 操作返回 -1 )示例 1：输入： ["CQueue","appendTail","deleteHead","deleteHead"] [[],[3],[],[]] 输出：...

windows7 python3.63使用selenium+webdriver 实现自动登录使用过程【代码】【图】

本人用的是python3.63版本这里会讲到安装时所遇到的问题这里是根据火狐浏览器来操作的1、首先安装selenium 在 windows 的 cmd窗口通过pip 没安装pip的小伙伴自行去搜搜相关pip安装方法pip install selenium安装成功后测试一下是否能正常运行打开百度输入关键字并且搜索from selenium import webdriver import time Drivers=webdriver.Firefox()#声明火狐浏览器驱动对象 try:Drivers.get(‘https://www.baidu.com‘...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python实现爬取微博热搜存入Mysql

python实现爬取微博热搜存入Mysql

内容导读

内容图文

内容总结

内容备注

内容手机端

【python实现爬取微博热搜存入Mysql】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

python实现排序算法（一）——插入排序算法【代码】

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

TOPk实现(python)【代码】

Python封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应【图】

Python + Opencv2 实现轮廓提取，轮廓区域面积计算【代码】【图】

选择排序python实现【代码】

Python实现二叉树的非递归先序遍历【代码】

Python学习——实现简单的交互raw_input的使用【代码】

python实现线性规划【代码】【图】

从函数内函数定义看python的函数实现

python random() 简单实现验证码【代码】

LeetCode 剑指 Offer 09. 用两个栈实现队列 | Python【代码】【图】

windows7 python3.63使用selenium+webdriver 实现自动登录使用过程【代码】【图】

PYTHON - 相关标签

MYSQL - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程