首页 / PYTHON / Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享

Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含10478字，纯文字阅读大概需要15分钟。

内容图文

支付宝十年账单上的数字有点吓人，但它统计的项目太多，只是想看看到底单纯在淘宝上支出了多少，于是写了段脚本，统计任意时间段淘宝订单的消费情况，看那结果其实在淘宝上我还是相当节约的说。
脚本的主要工作是模拟了浏览器登录，解析“已买到的宝贝”页面以获得指定的订单及宝贝信息。

Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享 - 文章图片

使用方法见代码或执行命令加参数-h，另外需要BeautifulSoup4支持，BeautifulSoup的官方项目列表页：https://www.crummy.com/software/BeautifulSoup/bs4/download/

首先来说一下代码使用方法:

python taobao.py -u USERNAME -p PASSWORD -s START-DATE -e END-DATE --verbose

所有参数均可选，如:

python taobao.py -u jinnlynn

统计用户jinnlynn所有订单的情况

python taobao.py -s 2014-12-12 -e 2014-12-12

统计用户(用户名在命令执行时会要求输入)在2014-12-12当天的订单情况

python taobao.py --verbose

这样就可以统计并输出订单明细。

好了，说了这么多我们就来看代码吧：

from __future__ import unicode_literals, print_function, absolute_import, division
import urllib
import urllib2
import urlparse
import cookielib
import re
import sys
import os
import json
import subprocess
import argparse
import platform
from getpass import getpass
from datetime import datetime
from pprint import pprint

try:
  from bs4 import BeautifulSoup
except ImportError:
  sys.exit('BeautifulSoup4 missing.')

__version__ = '1.0.0'
__author__ = 'JinnLynn'
__copyright__ = 'Copyright (c) 2014 JinnLynn'
__license__ = 'The MIT License'

HEADERS = {
  'x-requestted-with' : 'XMLHttpRequest',
  'Accept-Language' : 'zh-cn',
  'Accept-Encoding' : 'gzip, deflate',
  'ContentType' : 'application/x-www-form-urlencoded; chartset=UTF-8',
  'Cache-Control' : 'no-cache',
  'User-Agent' :'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.38 Safari/537.36',
  'Connection' : 'Keep-Alive'
}

DEFAULT_POST_DATA = {
  'TPL_username' : '', #用户名
  'TPL_password' : '', #密码
  'TPL_checkcode' : '',
  'need_check_code' : 'false',
  'callback' : '0', # 有值返回JSON
}

# 无效订单状态
INVALID_ORDER_STATES = [
  'CREATE_CLOSED_OF_TAOBAO', # 取消
  'TRADE_CLOSED', # 订单关闭
]

LOGIN_URL = 'https://login.taobao.com/member/login.jhtml'

RAW_IMPUT_ENCODING = 'gbk' if platform.system() == 'Windows' else 'utf-8'

def _request(url, data, method='POST'):
  if data:
    data = urllib.urlencode(data)
  if method == 'GET':
    if data:
      url = '{}?{}'.format(url, data)
    data = None
  # print(url)
  # print(data)
  req = urllib2.Request(url, data, HEADERS)
  return urllib2.urlopen(req)

def stdout_cr(msg=''):
  sys.stdout.write('\r{:10}'.format(' '))
  sys.stdout.write('\r{}'.format(msg))
  sys.stdout.flush()

def get(url, data=None):
  return _request(url, data, method='GET')

def post(url, data=None):
  return _request(url, data, method='POST')

def login_post(data):
  login_data = DEFAULT_POST_DATA
  login_data.update(data)
  res = post(LOGIN_URL, login_data)
  return json.load(res, encoding='gbk')

def login(usr, pwd):
  data = {
    'TPL_username' : usr.encode('utf-8' if platform.system() == 'Windows' else 'GB18030'),
    'TPL_password' : pwd
  }

  # 1. 尝试登录
  ret = login_post(data)
  while not ret.get('state', False):
    code = ret.get('data', {}).get('code', 0)
    if code == 3425 or code == 1000:
      print('INFO: {}'.format(ret.get('message')))
      check_code = checkcode(ret.get('data', {}).get('ccurl'))
      data.update({'TPL_checkcode' : check_code, 'need_check_code' : 'true'})
      ret = login_post(data)
    else:
      sys.exit('ERROR. code: {}, message:{}'.format(code, ret.get('message', '')))

  token = ret.get('data', {}).get('token')
  print('LOGIN SUCCESS. token: {}'.format(token))

  # 2. 重定向
  # 2.1 st值
  res = get('https://passport.alipay.com/mini_apply_st.js', {
    'site' : '0',
    'token' : token,
    'callback' : 'stCallback4'})
  content = res.read()
  st = re.search(r'"st":"(\S*)"( |})', content).group(1)
  # 2.1 重定向
  get('http://login.taobao.com/member/vst.htm',
    {'st' : st, 'TPL_uesrname' : usr.encode('GB18030')})

def checkcode(url):
  filename, _ = urllib.urlretrieve(url)
  if not filename.endswith('.jpg'):
    old_fn = filename
    filename = '{}.jpg'.format(filename)
    os.rename(old_fn, filename)
  if platform.system() == 'Darwin':
    # mac 下直接preview打开
    subprocess.call(['open', filename])
  elif platform.system() == 'Windows':
    # windows 执行文件用默认程序打开
    subprocess.call(filename, shell=True)
  else:
    # 其它系统

输出文件名 print('打开该文件获取验证码: {}'.format(filename)) return raw_input('输入验证码: '.encode(RAW_IMPUT_ENCODING)) def parse_bought_list(start_date=None, end_date=None): url = 'http://buyer.trade.taobao.com/trade/itemlist/list_bought_items.htm' # 运费险增值服务分段支付（定金，尾款） extra_service = ['freight-info', 'service-info', 'stage-item'] stdout_cr('working... {:.0%}'.format(0)) # 1. 解析第一页 res = urllib2.urlopen(url) soup = BeautifulSoup(res.read().decode('gbk')) # 2. 获取页数相关 page_jump = soup.find('span', id='J_JumpTo') jump_url = page_jump.attrs['data-url'] url_parts = urlparse.urlparse(jump_url) query_data = dict(urlparse.parse_qsl(url_parts.query)) total_pages = int(query_data['tPage']) # 解析 orders = [] cur_page = 1 out_date = False errors = [] while True: bought_items = soup.find_all('tbody', attrs={'data-orderid' : True}) # pprint(len(bought_items)) count = 0 for item in bought_items: count += 1 # pprint('{}.{}'.format(cur_page, count)) try: info = {} # 订单在页面上的位置页数.排序号 info['pos'] = '{}.{}'.format(cur_page, count) info['orderid'] = item.attrs['data-orderid'] info['status'] = item.attrs['data-status'] # 店铺 node = item.select('tr.order-hd a.shopname') if not node: # 店铺不存在，可能是赠送彩票订单，忽略 # print('ignore') continue info['shop_name'] = node[0].attrs['title'].strip() info['shop_url'] = node[0].attrs['href'] # 日期 node = item.select('tr.order-hd span.dealtime')[0] info['date'] = datetime.strptime(node.attrs['title'], '%Y-%m-%d %H:%M') if end_date and info['date'].toordinal() > end_date.toordinal(): continue if start_date and info['date'].toordinal() < start_date.toordinal(): out_date = True break # 宝贝 baobei = [] node = item.find_all('tr', class_='order-bd') # pprint(len(node)) for n in node: try: bb = {} if [True for ex in extra_service if ex in n.attrs['class']]: # 额外服务处理 # print('额外服务处理') name_node = n.find('td', class_='baobei') # 宝贝地址 bb['name'] = name_node.text.strip() bb['url'] = '' bb['spec'] = '' # 宝贝快照 bb['snapshot'] = '' # 宝贝价格 bb['price'] = 0.0 # 宝贝数量 bb['quantity'] = 1 bb['is_goods'] = False try: bb['url'] = name_node.find('a').attrs['href'] bb['price'] = float(n.find('td', class_='price').text) except: pass else: name_node = n.select('p.baobei-name a') # 宝贝地址 bb['name'] = name_node[0].text.strip() bb['url'] = name_node[0].attrs['href'] # 宝贝快照 bb['snapshot'] = '' if len(name_node) > 1: bb['snapshot'] = name_node[1].attrs['href'] # 宝贝规格 bb['spec'] = n.select('.spec')[0].text.strip() # 宝贝价格 bb['price'] = float(n.find('td', class_='price').attrs['title']) # 宝贝数量 bb['quantity'] = int(n.find('td', class_='quantity').attrs['title']) bb['is_goods'] = True baobei.append(bb) # 尝试获取实付款 # 实付款所在的节点可能跨越多个tr的td amount_node = n.select('td.amount em.real-price') if amount_node: info['amount'] = float(amount_node[0].text) except Exception as e: errors.append({ 'type' : 'baobei', 'id' : '{}.{}'.format(cur_page, count), 'node' : '{}'.format(n), 'error' : '{}'.format(e) }) except Exception as e: errors.append({ 'type' : 'order', 'id' : '{}.{}'.format(cur_page, count), 'node' : '{}'.format(item), 'error' : '{}'.format(e) }) info['baobei'] = baobei orders.append(info) stdout_cr('working... {:.0%}'.format(cur_page / total_pages)) # 下一页 cur_page += 1 if cur_page > total_pages or out_date: break query_data.update({'pageNum' : cur_page}) page_url = '{}?{}'.format(url, urllib.urlencode(query_data)) res = urllib2.urlopen(page_url) soup = BeautifulSoup(res.read().decode('gbk')) stdout_cr() if errors: print('INFO. 有错误发生，统计结果可能不准确。') # pprint(errors) return orders def output(orders, start_date, end_date): amount = 0.0 org_amount = 0 baobei_count = 0 order_count = 0 invaild_order_count = 0 for order in orders: if order['status'] in INVALID_ORDER_STATES: invaild_order_count += 1 continue amount += order['amount'] order_count += 1 for baobei in order.get('baobei', []): if not baobei['is_goods']: continue org_amount += baobei['price'] * baobei['quantity'] baobei_count += baobei['quantity'] print('{:<9} {}'.format('累计消费:', amount)) print('{:<9} {}/{}'.format('订单/宝贝:', order_count, baobei_count)) if invaild_order_count: print('{:<9} {} (退货或取消等, 不在上述订单之内)'.format('无效订单:', invaild_order_count)) print('{:<7} {}'.format('宝贝原始总价:', org_amount)) print('{:<7} {:.2f}'.format('宝贝平均单价:', 0 if baobei_count == 0 else org_amount / baobei_count)) print('{:<9} {} ({:.2%})'.format('节约了(?)：', org_amount - amount, 0 if org_amount == 0 else (org_amount - amount) / org_amount)) from_date = start_date if start_date else orders[-1]['date'] to_date = end_date if end_date else datetime.now() print('{:<9} {:%Y-%m-%d} - {:%Y-%m-%d}'.format('统计区间:', from_date, to_date)) if not start_date: print('{:<9} {:%Y-%m-%d %H:%M}'.format('败家始于:', orders[-1]['date'])) def ouput_orders(orders): print('所有订单:') if not orders: print(' --') return for order in orders: print(' {:-^20}'.format('-')) print(' * 订单号: {orderid} 实付款: {amount} 店铺: {shop_name} 时间: {date:%Y-%m-%d %H:%M}'.format(**order)) for bb in order['baobei']: if not bb['is_goods']: continue print(' - {name}'.format(**bb)) if bb['spec']: print(' {spec}'.format(**bb)) print(' {price} X {quantity}'.format(**bb)) def main(): parser = argparse.ArgumentParser( prog='python {}'.format(__file__) ) parser.add_argument('-u', '--username', help='淘宝用户名') parser.add_argument('-p', '--password', help='淘宝密码') parser.add_argument('-s', '--start', help='起始时间，可选, 格式如: 2014-11-11') parser.add_argument('-e', '--end', help='结束时间，可选, 格式如: 2014-11-11') parser.add_argument('--verbose', action='store_true', default=False, help='订单详细输出') parser.add_argument('-v', '--version', action='version', version='v{}'.format(__version__), help='版本号') args = parser.parse_args() usr = args.username if not usr: usr = raw_input('输入淘宝用户名: '.encode(RAW_IMPUT_ENCODING)) usr = usr.decode('utf-8') # 中文输入问题 pwd = args.password if not pwd: if platform.system() == 'Windows': # Windows下中文输出有问题 pwd = getpass() else: pwd = getpass('输入淘宝密码: '.encode('utf-8')) pwd = pwd.decode('utf-8') verbose = args.verbose start_date = None if args.start: try: start_date = datetime.strptime(args.start, '%Y-%m-%d') except Exception as e: sys.exit('ERROR. {}'.format(e)) end_date = None if args.end: try: end_date = datetime.strptime(args.end, '%Y-%m-%d') except Exception as e: sys.exit('ERROR. {}'.format(e)) if start_date and end_date and start_date > end_date: sys.exit('ERROR, 结束日期必须晚于或等于开始日期') cj_file = './{}.tmp'.format(usr) cj = cookielib.LWPCookieJar() try: cj.load(cj_file) except: pass opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj), urllib2.HTTPHandler) urllib2.install_opener(opener) login(usr, pwd) try: cj.save(cj_file) except: pass orders = parse_bought_list(start_date, end_date) output(orders, start_date, end_date) # 输出订单明细 if verbose: ouput_orders(orders) if __name__ == '__main__': main()

内容总结

以上是互联网集市为您收集整理的Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享全部内容，希望文章能够帮你解决Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/432341.html

来源：【匿名】

【上一篇】Python遍历目录中的所有文件的方法【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享】教程文章相关的互联网学习教程文章

Python实现高效求解素数代码实例【代码】

素数是编程中经常需要用到的。作为学习Python的示例，下面是一个高效求解一个范围内的素数的程序，不需要使用除法或者求模运算。 #coding:utf-8 #设置python文件的编码为utf-8，这样就可以写入中文注释 def primeRange(n):myArray=[1 for x in range(n+1)] ##列表解析，生成长度为(n+1)的列表，每个数值都为1myArray[0]=0myArray[1]=0startPos=2while startPos <= n:if myArray[startPos]==1:key=2resultPos = startPos * key #...

通过pandas库对cdn日志实现分析的python代码实例

这篇文章主要介绍了利用Python中的pandas库进行cdn日志分析的相关资料，文中分享了pandas对cdn日志分析的完整示例代码，然后详细介绍了关于pandas库的相关内容，需要的朋友可以参考借鉴，下面来一起看看吧。前言最近工作工作中遇到一个需求，是要根据CDN日志过滤一些数据，例如流量、状态码统计，TOP IP、URL、UA、Referer等。以前都是用 bash shell 实现的，但是当日志量较大，日志文件数G、行数达数千万亿级时，通过 shell 处理有...

完成计算文本文件字数的Python代码实例

这篇文章主要介绍了Python实现统计文本文件字数的方法,涉及Python针对文本文件读取及字符串转换、运算等相关操作技巧,需要的朋友可以参考下本文实例讲述了Python实现统计文本文件字数的方法。分享给大家供大家参考，具体如下：统计文本文件的字数，从当前目录下的file.txt取文件# -*- coding: GBK -*- import string import sys reload(sys) def compareItems((w1,c1), (w2,c2)):if c1 > c2:return - 1elif c1 == c2:return cmp(w1...

python基础教程Python JSON常用编解码方法代码实例【图】

更多python教程请到：菜鸟教程 https://www.piaodoo.com/ 概念 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，易于人阅读和编写。在日常的工作中，应用范围极其广泛。这里就介绍python下它的两种编解码方法：使用json函数使用 JSON 函数需要导入 json 库：import json。函数含义：源码解析：# coding= utf-8 #!/usr/bin/python import json import sys data = {"username":"测试","age":16} jsondata = js...

以Python代码实例展示kNN算法的实际运用_基础知识【图】

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。...

以Python代码实例展示kNN算法的实际运用【图】

一起看看python+pygame简单画板实现代码实例【代码】【图】

疑问：pygame已经过时了吗？过没过时不知道，反正这玩意官方已经快四年没有更新了。用的人还是蛮多的（相对于其他同类项目），不过大家都是用来写写小东西玩一玩，没有人用这个做商业项目。pygame其实就是SDL的python绑定，SDL又是基于OpenGL，所以也有人用pygame+pyOpenGL做3D演示什么的。真的要写游戏的话pygame的封装比较底层，不太够用，很多东西都要自己实现（当然自由度也高）。文档也不太好，好在前人留下了很多文章。拿来练...

如何在Python中使用运算符？（代码实例）【图】

初学者如何使用Python中的运算符，在可以说是编程中必不可少的知识的运算符中，下面Gxl网就带领大家来讲解一下如何在Python中使用运算符？【推荐教程：Python教程】一：什么是Python的运算符运算符是用于计算的运算符号，例如四个算术运算和执行编程时的比较，有几种类型的Python运算符。1.代数运算符代数运算符是用于由算术运算表示的运算，它在名称上与赋值运算符类似，但它是代数运算符。+， - ，*，/，％，**，//2.按位运算符按...

Python实现图片像素化的代码实例【图】

本篇文章给大家带来的内容是关于Python实现图片像素化的代码实例，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。起因看到网上的像素图片，感觉蛮有趣的，就打算用python一些PIL类库写一个。实现思路把一张图片分成多个块，每个块的颜色都等于这个色块中颜色最多的颜色，如下图。这个图取22的像素为块的大小，把快中颜色与每个颜色出现的数量存放到字典里，取最大的颜色，填充整个块。具体实现from PIL import I...

Python中typing模块的介绍（代码实例）【图】

本篇文章给大家带来的内容是关于Python中typing模块的介绍（代码实例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。Python是一门弱类型的语言，很多时候我们可能不清楚函数参数类型或者返回值类型，很有可能导致一些类型没有指定方法，typing模块可以很好的解决这个问题。该模块加入并不会影响程序的运行，不会报正式的错误，只有提醒。typing模块只有在python3.5以上的版本中才可以使用，pycharm目前支持ty...

python求解物理学中的双弹簧质能系统的代码实例【图】

这篇文章主要给大家介绍了关于利用python如何求解物理学中的双弹簧质能系统的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧。前言本文主要给大家介绍了关于利用python求解物理学中双弹簧质能系统的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。物理的模型如下：在这个系统里有两个物体，它们的质量分别是m1和...

Python实现表情包的代码实例【图】

本文主要介绍了使用Python进行简单图像处理的方法以及Python自动生产表情包的实例，具有很好的参考价值，下面跟着小编一起来看下吧作为一个数据分析师，应该信奉一句话——“一图胜千言”。不过这里要说的并不是数据可视化，而是一款全民向的产品形态——表情包！！！！表情包不仅仅是一种符号，更是一种文化——是促进社交乃至社会发展的动力之一，就像懒。我们坚持认为，一张优秀的表情包，应该是一幅艺术品，是那忽如一夜春风来...

Python爬虫实现取名字的代码实例【图】

每个人一生中都会遇到一件事情，在事情出现之前不会关心，但是事情一旦来临就发现它极其重要，并且需要在很短的时间内做出重大决定，那就是给自己的新生宝宝起个名字。下面这篇文章主要介绍了如何利用Python爬虫给孩子起个好名字，需要的朋友可以参考下。前言相信每位家长都有所体会，因为要在孩子出生后两周内起个名字（需要办理出生证明了），估计很多人都像我一样，刚开始是很慌乱的，虽然感觉汉字非常的多随便找个字做名字都行...

实现端口扫描器Python代码实例【图】

本篇文章主要介绍了Python实现简易端口扫描器的相关代码,具有一定的参考价值，感兴趣的小伙伴们可以参考一下。在网上的一些资料的基础上自己又添了些新内容，算是Python socket编程练手吧。#coding=utf-8 import socket import time import sys import struct import threading from threading import Thread,activeCountresults=[] def portScanner(ip,port):server = (ip,port)sockfd = socket.socket(socket.AF_INET,socket.SOC...

pythonCondition对象之生产者与消费者操作的代码实例【图】

这篇文章主要介绍了python条件变量之生产者与消费者操作,结合具体实例形式分析了Python条件变量的概念、原理、及线程操作的相关技巧,需要的朋友可以参考下本文实例讲述了python条件变量之生产者与消费者操作。分享给大家供大家参考，具体如下：互斥锁是最简单的线程同步机制，面对复杂线程同步问题，Python还提供了Condition对象。Condition被称为条件变量，除了提供与Lock类似的acquire和release方法外，还提供了wait和notify方法...

首页 / PYTHON / Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享

Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享】教程文章相关的互联网学习教程文章

Python实现高效求解素数代码实例【代码】

通过pandas库对cdn日志实现分析的python代码实例

完成计算文本文件字数的Python代码实例

python基础教程Python JSON常用编解码方法代码实例【图】

以Python代码实例展示kNN算法的实际运用_基础知识【图】

以Python代码实例展示kNN算法的实际运用【图】

一起看看python+pygame简单画板实现代码实例【代码】【图】

如何在Python中使用运算符？（代码实例）【图】

Python实现图片像素化的代码实例【图】

Python中typing模块的介绍（代码实例）【图】

python求解物理学中的双弹簧质能系统的代码实例【图】

Python实现表情包的代码实例【图】

Python爬虫实现取名字的代码实例【图】

实现端口扫描器Python代码实例【图】

pythonCondition对象之生产者与消费者操作的代码实例【图】

PYTHON - 相关标签

实例 - 相关标签

统计 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程