首页 / PYTHON / python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施

python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3903字，纯文字阅读大概需要6分钟。

内容图文

python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施

我有一组数据,我正在使用Extra Trees Classifier开发一个预测模型,如下面的代码所示,在最初的代码集上显示et_scores看起来非常令人失望我运行时看到下面的内容并且它看起来更好,然后我做了一个学习图,事情看起来不太热.总而言之,令人困惑.
初始代码：

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.cross_validation import cross_val_score
#split the dataset for train and test
combnum['is_train'] = np.random.uniform(0, 1, len(combnum)) <= .75
train, test = combnum[combnum['is_train']==True], combnum[combnum['is_train']==False]

et = ExtraTreesClassifier(n_estimators=200, max_depth=None, min_samples_split=10, random_state=0)

labels = train[list(label_columns)].values
tlabels = test[list(label_columns)].values

features = train[list(columns)].values
tfeatures = test[list(columns)].values

et_score = cross_val_score(et, features, labels.ravel(), n_jobs=-1)
print("{0} -> ET: {1})".format(label_columns, et_score))

给我：

['Campaign_Response'] -> ET: [ 0.58746427  0.31725003  0.43522521])

不是那么热！
然后根据我提供的数据：

 et.fit(features,labels.ravel())
 et.score(tfeatures,tlabels.ravel())
 Out[16]:0.7434136771300448

还不错
然后是关于训练数据：

et.score(features,labels.ravel())
Out[17]:0.85246473144769563

再次,相当不错,但与之前的分数无关？
然后运行：

from sklearn.learning_curve import validation_curve


def plot_validation_curve(estimator, X, y, param_name, param_range,
                      ylim=(0, 1.1), cv=5, n_jobs=-1, scoring=None):
    estimator_name = type(estimator).__name__
    plt.title("Validation curves for %s on %s"
          % (param_name, estimator_name))
    plt.ylim(*ylim); plt.grid()
    plt.xlim(min(param_range), max(param_range))
    plt.xlabel(param_name)
    plt.ylabel("Score")

    train_scores, test_scores = validation_curve(
        estimator, X, y, param_name, param_range,
        cv=cv, n_jobs=n_jobs, scoring=scoring)

    train_scores_mean = np.mean(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    plt.semilogx(param_range, train_scores_mean, 'o-', color="r",
             label="Training score")
    plt.semilogx(param_range, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")
    plt.legend(loc="best")
    print("Best test score: {:.4f}".format(test_scores_mean[-1]))

其次是：

clf = ExtraTreesClassifier(max_depth=8)
param_name = 'max_depth'
param_range = [1, 2, 4, 8, 16, 32]

plot_validation_curve(clf, features,labels.ravel(),
                  param_name, param_range, scoring='roc_auc')

给我一个似乎不反映先前信息的图表和图例：

Best test score: 0.3592

最后sklearn指标给了我

Accuracy:0.737 

Classification report
             precision    recall  f1-score   support

          0       0.76      0.79      0.78      8311
          1       0.70      0.66      0.68      6134

avg / total       0.74      0.74      0.74     14445

在我看来,我应该能够更好地解释这些东西可以有人帮忙吗？

解决方法:

您在这里遇到的是不同的交叉验证方法和分类器参数会导致不同的分数.

在您的第一个实验中,您将cross_val_score方法的结果与您自己的75％/ 25％随机分割进行比较. cross_val_score方法使用StratifiedKFold方法,K为3来确定折叠. StratifiedKFold或多或少保留数据的顺序,而随机分割通过随机抽样删除数据中的任何自然顺序.这可以解释分数的差异,特别是当您的数据依赖于自然顺序时.例如,如果您的数据按时间戳排序,则数据的特征可能会随着时间的推移而发生变化.当列车和测试集来自不同的时间段时,这导致较差的分数,这将是StratifiedKFold采样的情况.

在第二个实验中,您使用分类器的默认参数和5倍的交叉验证,这又会导致不同的结果.例如,默认情况下,ExtraTreeClassifier使用10个估算器,但在第一个实验中,您使用了200个估算器 – 并且您改变了max_depth参数.对于解释,max_depth参数确定树的复杂性,并且仅训练10棵树,大量叶子导致过度拟合,这正是您在验证图表中看到的效果.最佳测试分数实际为0.6而不是0.315,您应该取最高分而不是最后分数.

我希望这有助于对分数的解释和对差异的理解.接下来我会检查数据的排序,如果是暂时的,我会通过可视化对其进行调查.如果您希望最终在预测的数据中出现这种漂移,则不应使用随机抽样 – 如果您确信您的训练集反映了所有变化,您可以在测试之前对数据进行混洗或设置StratifiedKFold的shuffle参数为true.对于分类器,我宁愿从一个简单的RandomForestClassifier开始,并在查看ExtraTrees之前将n_estimators设置为100.

内容总结

以上是互联网集市为您收集整理的python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施全部内容，希望文章能够帮你解决python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/786923.html

来源：【匿名】

【上一篇】python – 从文本文件中检索匹配的字符串【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施】教程文章相关的互联网学习教程文章

以Python撰写 AI模型框架【代码】【图】

以Python撰写 AI模型框架 by 高焕堂前言：在AI(人工智慧)方面，由于当今的机器学习本质是一种<大数据相关性支撑的>归纳性推理。软体框架的复用(Reuse)性愈高，对于应用开发的帮助愈大。因此，在AI领域里，软体框架魅力将会大放异彩。在本文里，是基于最简单的Perceptron模型来阐述如何分析、设计及实作一个框架和API。在本节里，将优化这个AI模型，让它从线性分类，提升到非线性分类，可以展现更高的智慧，也适用于更广的范围。而且...

【Spark MLlib速成宝典】模型篇06随机森林【Random Forests】（Python版）【代码】

目录随机森林原理随机森林代码(Spark Python) 随机森林原理　　待续... 返回目录随机森林代码(Spark Python) 　　代码里数据：https://pan.baidu.com/s/1jHWKG4I 密码：acq1 # -*-coding=utf-8 -*- from pyspark import SparkConf, SparkContext sc = SparkContext(‘local‘)from pyspark.mllib.tree import RandomForest, RandomForestModel from pyspark.mllib.util import MLUtils# Load and parse the data file into an R...

用Python给文本创立向量空间模型的教程【代码】

我们需要开始思考如何将文本集合转化为可量化的东西。最简单的方法是考虑词频。我将尽量尝试不使用NLTK和Scikits-Learn包。我们首先使用Python讲解一些基本概念。基本词频首先，我们回顾一下如何得到每篇文档中的词的个数：一个词频向量。 #examples taken from here: http://stackoverflow.com/a/1750187mydoclist = [‘Julie loves me more than Linda loves me‘, ‘Jane likes me more than Julie loves me‘, ‘He likes ba...

流畅的Python---第一章 Python数据模型【代码】

1.利用简单的例子来展示实现 __getitem__ __len__ 这2个特殊方法　　定义一个字牌类#encoding:utf-8import collections Card = collections.namedtuple(‘Card‘,[‘rank‘,‘suit‘])class FrenchDeck:ranks = [str(n) for n in range(2,11)] + list(‘JQKA‘)suits = ‘spades diamonds clubs hearts‘.split()def__init__(self):self._cards = [ Card(rank,suit) for suit in self.suitsfor rank in self.ranks]def__len__(sel...

《Python》IO模型【代码】【图】

一、IO模型介绍　　为了更好地了解IO模型，我们需要事先回顾下：　　　　同步：一件事情做完再做另一件事情　　　　异步：同时做多件事情　　　　阻塞：sleep、input、join、shutdown、get、acquire、wait　　accept、recv、recvfrom　　　　非阻塞：strblocking(False)　　用socket 一定会用到accept、recv、recvfrom这些方法　　　　正常情况下accept、recv、recvfrom都是阻塞的　　　　如果setblocking(False) 整个程序就变成一...

python之函数实现生产者消费者模型（开发模型）【代码】

#!/usr/bin/env /pythonimport threading import time import Queue import random#生产者 def Proudcer(name,que): while True: if que.qsize() < 3: #如果只剩下3个包子就又开始生产包子（如果队列中的数据为3个时） que.put(‘baozi‘) #包子入队列 print ‘%s 生产包子...‘ % name else: print "%s 仅剩3个包子..." time.sleep(random.randrange(5)) #随机在...

python_day10 多线程协程 IO模型【代码】

多线程协程IO模型多线程#线程的PID与主进程PID一致from threading import Thread from multiprocessing import Process import os def task():print(‘%s is running‘ %os.getpid()) if__name__ == ‘__main__‘:t1=Thread(target=task,)t2=Thread(target=task,)# t1=Process(target=task,)# t2=Process(target=task,) t1.start()t2.start()print(‘主‘,os.getpid())#多线程共享一个进程内的资源from threading import Thread...

python生产者消费者模型【代码】

import time import queue import threadingq = queue.Queue() # 线程安全def producer(id):"""生产者"""while True:time.sleep(2)q.put('包子')print('厨师%s 生产了一个包子' % id)for i in range(1, 4):t = threading.Thread(target=producer, args=(i,))t.start()def consumer(id):"""消费者"""while True:time.sleep(1)v1 = q.get()print('顾客 %s 吃了一个包子' % id)for i in range(1, 3):t = threading.Thread(target=con...

2.Python进程间的通信之队列（Queue）和生产者消费者模型【代码】

一、队列1.1 概念介绍-----multiprocess.Queue创建共享的进程队列，Queue是多进程安全的队列，可以使用Queue实现多进程之间的数据传递。Queue([maxsize])创建共享的进程队列。参数：maxsize是队列中允许的最大项数。如果省略此参数，则无大小限制。底层队列使用管道和锁定实现。1.2 方法介绍Queue([maxsize])：创建共享的进程队列。maxsize是队列中允许的最大项数。如果省略此参数，则无大小限制。底层队列使用管道和锁定实现。另...

4Python全栈之路系列之Django模型【代码】

Python全栈之路系列之Django模型MTV开发模式把数据存取逻辑、业务逻辑和表现逻辑组合在一起的概念有时被称为软件架构的Model-View-Controller(MVC)模式。在这个模式中，Model代表数据存取层，View代表的是系统中选择显示什么和怎么显示的部分，Controller指的是系统中根据用户输入并视需要访问模型，以决定使用哪个视图的那部分。Django紧紧地遵循这种MVC模式，可以称得上是一种MVC框架。以下是Django中M、V和C各自的含义：**M**：...

python之全栈开发——————IO模型【代码】【图】

一：在讲IO模型之前我们首先来讲一下事件驱动模型，属于一种编程的范式，那么我们以前就是传统式编程，来看看有什么区别吧（此处为借鉴别人的）传统的编程是如下线性模式的：开始--->代码块A--->代码块B--->代码块C--->代码块D--->......--->结束每一个代码块里是完成各种各样事情的代码，但编程者知道代码块A,B,C,D...的执行顺序，唯一能够改变这个流程的是数据。输入不同的数据，根据条件语句判断，流程或许就改为A--->C--->E......

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

from sklearn.decomposition import DictionaryLearning#数据预处理字典学习DictionaryLearning模型def test_DictionaryLearning():X=[[1,2,3,4,5],[6,7,8,9,10],[10,9,8,7,6,],[5,4,3,2,1]]print("before transform:",X)dct=DictionaryLearning(n_components=3)dct.fit(X)print("components is :",dct.components_)print("after transform:",dct.transform(X))# 调用 test_DictionaryLearning test_DictionaryLearning() from skl...

python------IO模型【代码】

一、IO模型：　　1.blocking IO 阻塞IO　　2.nonblocking IO 非阻塞IO　　3.IO multiplexing IO多路复用　　4.signal driven IO 信号驱动IO　　5.asynchronous IO 异步IO二、阻塞IO(blocking IO)在linux中，默认情况下所有的socket都是blocking。blocking IO的特点就是IO执行的两个阶段（等待数据和拷贝数据两个阶段）都被block了。阻塞型接口：指系统调用（一般是IO接口）不返回调用结果并让当前线程一直阻塞，只有当该系统...

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingClassifier分类模型【代码】【图】

import numpy as np import matplotlib.pyplot as pltfrom sklearn import datasets,ensemble from sklearn.model_selection import train_test_splitdef load_data_classification():‘‘‘加载用于分类问题的数据集‘‘‘# 使用 scikit-learn 自带的 digits 数据集digits=datasets.load_digits() # 分层采样拆分成训练集和测试集，测试集大小为原始数据集大小的 1/4return train_test_split(digits.data,digits.target,test_size...

python GIL锁锁线程池生产者消费模型【代码】

python的GIL 锁　　python内置的一个全局解释器锁 , 锁的作用就是保证同一时刻一个进程中只有一个线程可以被cpu调度为什么有这把GIL锁?　　python语言的创始人在开发这门语言时 , 目的快速把语言开发出来 , 如果加上GIL锁(C语言加锁) , 切换时按照100条字节指令来进行线程间的切换锁 : 　　1.锁 : Lock(1次放1个)　　　　线程安全 , 多线程操作时 , 内部会让所有线程排队处理 , 如 : list / dict / Queue　　　　线程不安全 + 人 ...

首页 / PYTHON / python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施

python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 解释Scikit-Learn模型输出,额外的树分类器不同的措施】教程文章相关的互联网学习教程文章

以Python撰写 AI模型框架【代码】【图】

【Spark MLlib速成宝典】模型篇06随机森林【Random Forests】（Python版）【代码】

用Python给文本创立向量空间模型的教程【代码】

流畅的Python---第一章 Python数据模型【代码】

《Python》IO模型【代码】【图】

python之函数实现生产者消费者模型（开发模型）【代码】

python_day10 多线程协程 IO模型【代码】

python生产者消费者模型【代码】

2.Python进程间的通信之队列（Queue）和生产者消费者模型【代码】

4Python全栈之路系列之Django模型【代码】

python之全栈开发——————IO模型【代码】【图】

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

python------IO模型【代码】

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingClassifier分类模型【代码】【图】

python GIL锁锁线程池生产者消费模型【代码】

PYTHON - 相关标签

模型 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程