首页 / 爬虫 / Python怎么爬虫淘宝商品数据
Python怎么爬虫淘宝商品数据
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python怎么爬虫淘宝商品数据,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1903字,纯文字阅读大概需要3分钟。
内容图文
![Python怎么爬虫淘宝商品数据](/upload/InfoBanner/zyjiaocheng/425/58c0c85916b04a60b89e167a4ade7d3d.jpg)
这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到。主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合的很紧密,剥离数据有一定的难度。
然后将获取的信息写入excel表格保存起来,这次只爬取了前面10页的内容。
代码如下:
import requests import re from xlwt import Workbook import xlrd import time def key_name( number ): #获取页面的内容并返回 name = '手机' URL_1 = "https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20170905&stats_click=search_radio_all%3A1&js=1&imgfile=&q=" URL_2 = "&suggest=0_1&_input_charset=utf-8&wq=u&suggest_query=u&source=suggest&p4ppushleft=5%2C48&s=" URL = ( URL_1 + name + URL_2 + str(number)) #print(URL) res = requests.get( URL ) return res.text def find_date( text): #根据整个页面的信息,获取商品的数据所在的HTML源码并放回 reg = r',"data":{"spus":\[({.+?)\]}},"header":' reg = re.compile(reg) info = re.findall(reg, text) return info[0] def manipulation_data( info, N, sheet ): #解析获取的HTML源码,获取数据 Date = eval(info) for d in Date: T = " ".join([t['tag'] for t in d['tag_info']]) #print(d['title'] + '\t' + d['price'] + '\t' + d['importantKey'][0:len(d['importantKey'])-1] + '\t' + T) sheet.write(N,0,d['title']) sheet.write(N,1,d['price']) sheet.write(N,2,T) N = N + 1 return N def main(): book = Workbook() sheet = book.add_sheet('淘宝手机数据') sheet.write(0,0,'品牌') sheet.write(0,1,'价格') sheet.write(0,2,'配置') book.save('淘宝手机数据.xls') #k用于生成链接,每个链接的最后面的数字相差48. #N用于记录表格的数据行数,便于写入数据 k = 0 N = 1 for i in range(10+1): text = key_name( k + i * 48 ) info = find_date(text) N = manipulation_data( info ,N, sheet ) book.save('淘宝手机数据.xls') print('下载第' + str(i) + '页完成') if __name__ == '__main__': main()
更多Python相关技术文章,请访问Python教程栏目进行学习!
以上就是Python怎么爬虫淘宝商品数据的详细内容,更多请关注Gxl网其它相关文章!
内容总结
以上是互联网集市为您收集整理的Python怎么爬虫淘宝商品数据全部内容,希望文章能够帮你解决Python怎么爬虫淘宝商品数据所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。