首页 / PYTHON / Python爬取淘宝店铺和评论

Python爬取淘宝店铺和评论

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取淘宝店铺和评论，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8626字，纯文字阅读大概需要13分钟。

内容图文

1 安装开发需要的一些库

(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。

(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。

(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。

(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:\Anaconda3\anaconda\Library\bin，重启电脑使环境变量生效，安装jieba库，在命令行中输入pip install jieba回车。

(5) 下载ChromeDriver，官方网址为：http://chromedriver.storage.googleapis.com/

index.html，并将chromedriver.exe放在Python安装目录的Scripts文件夹下。

2.实现

2.1 搜索模块

搜索功能即一个数据框和一个搜索按钮组成，点击搜索之后会跳转到显示框的界面，之后点击爬取数据可以在淘宝网站中对该商品进行搜索，并且爬取相关店铺的信息，并储存到数据库中。

界面显示用到Tkinter库，Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。

搜索主要用到selenium，也就是自动化测试工具，测试中根据pyquery中的提供的方法，在得到网页源码的情况下，根据HTML中的标签找到输入框，搜索按钮和翻页的按钮，模拟人工输入和点击，实现自动化控制，最后根据标签提取出相应的信息插入数据库中。

因为每个网站因网速的的问题都有响应时间，用WebDriverWait(driver,50)设置响应时间为50s，也就是响应超过50s便出现异常。提取数据时我用的是find_element_by_css_selector()方法，也就是标签选择器，可以定位到相应的区域。

Python连接数据库用到pymysql，PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。当得到标题，店铺名称，地点，购买人数，店铺链接时，以“|”分割拼接成字符串，作为参数传递给insert_data()方法，插入到数据库中。因为可能会有异常，所以放到try块中。

爬取数据的实现主要是用到了Pyquery、selenium库，以下代码主要实现了对淘宝的检索、翻页和对数据的提取。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 # 设置网站最大响应时间 wait=WebDriverWait(driver,50) class TaoBaoSearch: # 初始化，默认搜索为None，创建数据库连接 ????def __init__(self,search=None): ????????self.name=search ????????self.mysql=to.Data_oper() # 对淘宝网的搜索 ????def search(self): # 设置源网站，这里设置淘宝网站为源网站 ????????driver.get("https://www.taobao.com/")#J_TSearchForm > div.search-button > button # “q”为淘宝首页输入框的标签，这里定位到该输入框，并设置要搜索商品的名字 ????????imput=driver.find_element_by_id("q") ????????imput.send_keys(self.name) # wait.until()该方法的作用是加载出来搜索结果总页数之后开始往下执行 ????????pageText=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.total"))) ????????total=re.search("\d+",pageText.text) # 该方法返回搜索结果的总页数 ????????return total.group(0) # 提取出相应的数据 ????def parseHtml(self): ????????html=driver.page_source#获取网页源代码 ????????doc=qp(html) # 得到到class为m-itemlist下面的class是.items .item的div ????????iteams=doc(".m-itemlist .items .item").items() # 根据标签选择器提取出需要的数据 ????????for item?in iteams: ????????????# src=item(".pic .img").attr("src") ????????????src=item(".row .J_ClickStat").attr("href")??# 该店铺的链接 ????????????person=item(".row .deal-cnt").text()????#购买该商品的人数 ????????????title=item(".row .J_ClickStat").text().split("\n")??# 标题 ????????????shop=item(".row .shopname").text()??# 商品 ????????????location=item(".row .location").text()??# 地区 ???????# 将提取到的数据放到数组中保存起来 ????????????data=[] ????????????data.append(str(title[0].strip())) ????????????data.append(str(shop.strip())) ????????????data.append(str(location.strip())) ???????# 剔除无用字 ????????????data.append(str(person[:-3].strip())) ????????????data.append(str(src).strip()) # 调用mysql.insert_data()方法将提取到的数据插入到数据库中 ????????????self.mysql.insert_data(data) #? 对网页进行翻页的方法 ????def nextpage(self,pagenumber): # 定位到翻页的按钮前的输入框，也就是对其进行跳转 ????????pageInput=driver.find_element_by_css_selector("#mainsrp-pager > div > div > div > div.form > input") ????????pageInput.clear() ????????pageInput.send_keys(pagenumber) # 定位到跳转按钮，对其进行翻页 ????????pageButton=driver.find_element_by_css_selector("#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit") ????????pageButton.click() ????????wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > ul > li.item.active > span"),str(pagenumber))) ????????self.parseHtml() # 定义主函数，调用上面的的方法 ????def main(self): ????????total=int(self.search()) ????????for i?in range(2,total): ????????????self.nextpage(i) ????????self.mysql.close()

2.2 显示模块

当点击搜索之后，考虑到可能搜索的商品会有本地储存，所以没有对其直接搜索，而是在显示框中增加了一个爬取数据的按钮，该按钮即对商品进行搜索，而本地数据就是对数据库的data表进行查询，并将数据显示到界面上来。排序是对本地数据按购买人数进行排序，并显示在文本框中，在显示行数后面输入数字后，可以控制文本框的显示条数，默认显示10条。一键删除即把data表中的数据清空。

本地数据：对数据库中的data表进行查询，并将信息显示到文本框中，其中每条数据中间以“——”分开，每个字段之间以“|”分隔，因为考虑到店铺名称或是标题太长而不整齐，所以每个字段显示10个字符。

排序：当点击排序之后，会查询出数据库中每条数据的购买人数和店铺名称，并且以“，”分割拼接成字符串，设置一个元组（即数组性质），并根据用户输入的显示行数，控制元组的长度，具体实现：根据从数据库中得到的数据，每条每条的读取，当读取条数达到用户输入的显示行数的值，对元组中的数据用sort(reverse=True)对其进行从大到小排序：原理是：因购买人数一个月不超过一百万，所以得到的购买人数的最大长度为6位，这样，当每次读取的购买人数的长度不够6位时，在其前面补0，这样，购买人数的长度都为6，对其拼接的格式为“购买人数，店铺名称”，因为拼接后为字符串类型，所以用shot排序时会根据前面的购买人数进行字典序进行排序，进而前n条数据就排好序了，接着，每读取一条数据就对元组中最后一个数据进行比较，若是大于其数值，就插入到元组中，最后返回元组，这样，就实现了显示n条购买人数最多的数据。清除数据：对文本框中的数据进行清空，同时，删除data表中的数据。

以下代码是一个排序的算法，其主要作用是在界面上显示多少行数据，主要思路为：根据用户输入的数字创建一个数组，读取数据库中得到数据，分离出来购买人数并转换成int类型，将数据每次添加一个到数组中，当数组的长度等于用户想要显示最大行数时，对其数组中的数据从大到小进行排序，接下来，每当读取一个数据之后，就对数组中最小的那个进行比较，如果比起小，就跳过，否则，对该数据进行插入操作，并删除之前最小的那个数据，最后数组中保存的就是购买人数最多的前n条数据。

主要代码如下：

#对数据进行排序，data为购买人数
def shot_data(self,data,i=10):    # i为用户想要显示的最大行数，默认为10行
    top=[]
    if i>len(data):
        i=len(data)
    for x in data:
        if len(top)<i:     # 控制数组的长度，另其大小等于i
            top.append(x)
            if len(top)==i:
                top.sort(reverse=True)        # 数组内的数据进行排序
        else:
            l=len(top)
            y=len(top)
            t=1
            if x>top[l-1]:    # 判断其数值是否大于数组内的最小值
                while x>top[l-t] and y>0:    # 控制循环条件
                    t+=1
                    y-=1
                if y!=0:    # y的值若是==0，那么该数值就是最大值
                    for c in range(1,t):
                        top[l-c]=top[l-c-1]
                    top[l-t+1]=x
                else:
                   for c in range(1,t):
                       top[l-c]=top[l-c-1]
                   top[0]=x
    return top    # 返回装有最大的前i个数的数组

2.3 评论模块

点击查看链接之后会出现一个搜索框，即根据店铺名称搜索出相关的连接，点击查看评论之后可以对其店铺进行爬取，最后显示在评论框中。分析就是对评论进行关键词提取，并按权重显示出前n个词。点击查看评论进行自动化测试。

搜索店铺链接：根据用户输入的信息对数据库进行模糊查询，返回所有的匹配信息。并显示在文本框中。

爬取评论：首先清空comment表中的数据，根据curselection()方法得到用户选中的链接，接着对该链接进行爬取，在进入该店铺时，会提示需要登录，这样会对我们的自动化测试造成一定的阻碍，这里，我根据pyquery中提供的标签选择器，找到关闭按钮，模拟点击进行关闭，当进入店铺后，依旧是先得到该网页的源代码，根据标签选择器进行相应的操作，爬取到的评论时间，评论和购买物品以“|”拼接成字符串，显示到文本框的同时插入到数据库中。

评论分析：jieba是Python的中文分词组件。当查询到comment表中所有数据时，将每一条数据拼接成一个字符串，接着用jieba.posseg中的cut()方法，将评论分割成单个词并标注词性，用startswith('a')、startswith('v')得到形容词和动词。最后用jieba.analyse.extract_t

ags(v,topK=10)方法得到动词、形容词中权重较大的前10个词。

以下代码是对评论进行关键词的提取，用到了jieba库中的一些方法。

主要代码如下：

def dis_an(self):
# 清空显示界面
    self.txtMess.delete(1.0,END)
    t=to.Data_oper()
# 得到数据库中的存储信息
    test=t.dis_only_discuss()
# 定义字符串adg，v
    adg=""
    v=""
# 对评论进行分割并标注词性
    word=psg.cut(test)
# w为词意，f为词性
    for w,f in word:
    # 判断词性是否为形容词
        if f.startswith('a'):
            print(w)
            adg=adg+","+w
    # 判断词性是否为动词
        elif f.startswith('v'):
            v=v+","+w
    # 根据该词的权重提取出前5个词
tags=jieba.analyse.extract_tags(adg,topK=5)
    tags1=jieba.analyse.extract_tags(v,topK=5)

内容总结

以上是互联网集市为您收集整理的Python爬取淘宝店铺和评论全部内容，希望文章能够帮你解决Python爬取淘宝店铺和评论所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/854737.html

来源：【匿名】

【上一篇】python六剑客：map()、lambda()、filter()、reduce()、推导类表、切片【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python爬取淘宝店铺和评论】教程文章相关的互联网学习教程文章

Python爬去知乎上问题下所有图片【代码】

from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaExceptionclient = ZhihuClient()try:client.login(‘email_or_phone‘, ‘password‘)print(u"登陆成功!") except NeedCaptchaException:# 保存验证码并提示输入，重新登录with open(‘a.gif‘, ‘wb‘) as f:f.write(client.get_captcha())captcha = input(‘please input captcha:‘)client.login(‘+8613872273541‘, ‘z289784552‘, capt...

Python3爬取百度百科（配合PHP）【代码】【图】

用PHP写了一个网页，可以获取百度百科词条：http://www.selflink.cn/xiaobaike（只爬取摘要部分）那么通过Python来爬取，只需要不断向这个网页POST数据，获取返回值就可以了。由于是我自己的网页，保存返回值我也让PHP在服务器端来完成了，所以Python的任务只需要不断向服务器POST数据。那么POST什么数据呢？暂时找到了一个名词大全的网页。http://cidian.911cha.com/cixing_mingci.html足足20页的名词，足够作为名词POST数据的来...

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

日期：2020.01.27博客期：135星期一　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）　　网站的相关热词来源...

python爬有道翻译【代码】

在有道翻译页面中打开开发者工具，在Headers板块找到Request URL以及相应的data。 import urllib.request import urllib.parse import jsoncontent=input(‘请输入需要翻译的内容:‘)#_o要去掉，否则会出先error_code:50的报错 url=‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule‘data={} #开发者工具里有，i和doctype键不可少 data[‘i‘]=content data[‘from‘]=‘AUTO‘ data[‘to‘]=‘AUTO‘ data...

利用Python爬取fofa网页端数据【代码】

安装环境：pip install requests pip install lxml pip install fire使用命令：python fofa.py -s=title="你的关键字" -o="结果输出文件" -c="你的cookie" 代码如下：import requests,time,base64,fire from lxml import etree def fofasc(s,o,c):try:sbase64 = (base64.b64encode(s.encode(‘utf-8‘))).decode(‘utf-8‘)cookies = {"_fofapro_ars_session": c}headers = {‘User-Agent‘: ‘Mozilla/5.0 (Linux; Android 7.1.2;...

python爬微博【代码】

# -*- coding: utf-8 -*-import urllib.request import json#定义要爬取的微博大V的微博ID id=‘3924739974‘#设置代理IP proxy_addr="122.241.72.191:808"#定义页面打开函数 def use_proxy(url,proxy_addr):req=urllib.request.Request(url)req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")proxy=urllib.reque...

python爬取珞珈1号卫星数据【代码】【图】

首先登录珞珈一号数据系统查询想要的数据利用浏览器审查元素获取包含下载信息的源码将最右侧的table相关的网页源码copy到剪切板备用利用python下载数据 ## utf-8import requests import os # import urllib.requestfrom bs4 import BeautifulSoup from tqdm import tqdm import pandas as pd def saveFile(url,fileName):# ‘‘‘ 保存文件‘‘‘r = requests.get(url, stream=True)chunkSize = 256# print(‘dowloading...‘,fi...

python爬取豆瓣250存入mongodb全纪录【代码】【图】

用了一周的时间总算搞定了，跨过了各种坑，总算调试成功了，记录如下：1、首先在cmd中用命令行建立douban爬虫项目scrapy startproject douban2、我用的是pycharm，导入项目后，1）在items.py中定义爬取的字段items.py代码如下：123456789101112# -*- coding: utf-8 -*-import scrapy class DoubanBookItem(scrapy.Item): name = scrapy.Field() # 书名 price = scrapy.Field() # 价格 edition_year...

python爬取标题和作者时间的小程序

#encoding:UTF-8import urllib.parseimport urllib.requestimport base64import reimport sysimport timefrom random import sampleimport codecsfrom html.parser import HTMLParserlog = ‘gogogo.txt‘logfile = codecs.open(log,‘w‘,‘utf-8‘)class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.a=0 self.span=0; def handle_starttag(self,tag,attrs): ...

python 爬图片【代码】【图】

学了两天python，语法慢慢熟悉吧，数据结构都没写过。写了一个爬图片的小东西。挺有意思的。都是女神照 (????)用的是正则表达式， 1‘‘‘ 2符号：3 . 匹配任意字符，\n除外4 * 匹配前一个字符一次或无限次5 ? 匹配前一个字符0次或1次6 .* 贪心匹配7 .*? 非贪心匹配8 () 返回括号内容9方法： 10 findall 11 search 12 sub 1314用的最多的是(.*?) 15‘‘‘requests的导入，我也是醉了，还要eas...

Python爬取京东：价格、商品ID、标题、评价、店名、是否自营【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：菜鸟级程序猿代码实现import requests from lxml import etree import time import random import pandas as pd import json from sqlalchemy import create_engine from sqlalchemy.dialects.oracle import DATE,FLOAT,NUMBER,VARCHAR2 import cx_Oracle 先导入需要用的包PS：如有需要Python学...

python 爬小说【代码】

#coding=utf-8import datetime import time import sys import os import urllib2 import urllibsx = ‘小说站网址‘type = sys.getfilesystemencoding() user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘ headers = { ‘User-Agent‘ : user_agent } fo = open("note.txt", "wb")def getHtml(url): try: request = urllib2.Request(url, headers=headers) response = urllib2.urlopen(request) data = ...

python爬取网页内容demo【代码】

1#html文本提取 2from bs4 import BeautifulSoup3 html_sample = ‘ 4<html> 5<body> 6<h1 id = "title">Hello world</h1> 7<a href = "#www.baidu.com" class = "link"> This is link1</a> 8<a href = "#link2" class = "link"> This is link2</a> 9</body> 10</html>‘11 soup = BeautifulSoup(html_sample,‘html.parser‘) 12print(soup.text) 13 soup.select(‘h1‘) 14print(soup.select(‘h1‘)[0].text) 15print(soup.s...

利用python爬取点小图片，满足私欲(爬虫)【代码】

import requestsimport reimport os,syslinks=[]titles=[]headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}def get_url(page): url=‘http://www.zbjuran.com/mei/xinggan/list_13_%s.html‘%(page) data=requests.get(url,headers=headers).text data_use=re.findall(‘<div class="name"><a target="_bla...

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)【代码】【图】

简介抖音，是一款可以拍短视频的音乐创意短视频社交软件，该软件于2016年9月上线，是一个专注年轻人的15秒音乐短视频社区。用户可以通过这款软件选择歌曲，拍摄15秒的音乐短视频，形成自己的作品。此APP已在Android各大应用商店和APP Store均有上线。今天咱们就用Python爬取抖音视频准备：环境：Python3.6+WindowsIDE：你开行就好，喜欢用哪个就用哪个模块：1from splinter.driver.webdriver.chrome import Options, Chrome 2from ...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python爬取淘宝店铺和评论

Python爬取淘宝店铺和评论

内容导读

内容图文

1 安装开发需要的一些库

2.实现

2.1 搜索模块

2.2 显示模块

2.3 评论模块

内容总结

内容备注

内容手机端

【Python爬取淘宝店铺和评论】教程文章相关的互联网学习教程文章

Python爬去知乎上问题下所有图片【代码】

Python3爬取百度百科（配合PHP）【代码】【图】

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

python爬有道翻译【代码】

利用Python爬取fofa网页端数据【代码】

python爬微博【代码】

python爬取珞珈1号卫星数据【代码】【图】

python爬取豆瓣250存入mongodb全纪录【代码】【图】

python爬取标题和作者时间的小程序

python 爬图片【代码】【图】

Python爬取京东：价格、商品ID、标题、评价、店名、是否自营【代码】【图】

python 爬小说【代码】

python爬取网页内容demo【代码】

利用python爬取点小图片，满足私欲(爬虫)【代码】

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程