首页 / PYTHON / python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子

python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2496字，纯文字阅读大概需要4分钟。

内容图文

python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子

我使用sklearn.tree.DecisionTreeClassifier来构建决策树.使用最佳参数设置,我得到一个有不必要叶子的树(参见下面的示例图片 – 我不需要概率,所以标记为红色的叶节点是不必要的分割)

是否有任何第三方库用于修剪这些不必要的节点？还是代码片段？我可以写一个,但我无法想象我是第一个有这个问题的人……

要复制的代码：

from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
mdl = DecisionTreeClassifier(max_leaf_nodes=8)
mdl.fit(X,y)

PS：我尝试了多次关键词搜索,并且很惊讶地发现什么都没有 – 在sklearn中是否真的没有后期修剪？

PPS：响应可能的重复：虽然the suggested question可能在我自己编码修剪算法时帮助我,但它回答了一个不同的问题 – 我想摆脱不改变最终决定的叶子,而另一个问题想要一个最小阈值用于拆分节点.

PPPS：显示的树是一个显示我的问题的例子.我知道创建树的参数设置不是最理想的.我不是要求优化这个特定的树,我需要进行后修剪以摆脱可能有用的叶子,如果一个人需要类概率,但如果一个人只对最有可能的类感兴趣则没有帮助.

解决方法:

使用ncfirth的链接,我能够修改那里的代码,以便它适合我的问题：

from sklearn.tree._tree import TREE_LEAF

def is_leaf(inner_tree, index):
    # Check whether node is leaf node
    return (inner_tree.children_left[index] == TREE_LEAF and 
            inner_tree.children_right[index] == TREE_LEAF)

def prune_index(inner_tree, decisions, index=0):
    # Start pruning from the bottom - if we start from the top, we might miss
    # nodes that become leaves during pruning.
    # Do not use this directly - use prune_duplicate_leaves instead.
    if not is_leaf(inner_tree, inner_tree.children_left[index]):
        prune_index(inner_tree, decisions, inner_tree.children_left[index])
    if not is_leaf(inner_tree, inner_tree.children_right[index]):
        prune_index(inner_tree, decisions, inner_tree.children_right[index])

    # Prune children if both children are leaves now and make the same decision:     
    if (is_leaf(inner_tree, inner_tree.children_left[index]) and
        is_leaf(inner_tree, inner_tree.children_right[index]) and
        (decisions[index] == decisions[inner_tree.children_left[index]]) and 
        (decisions[index] == decisions[inner_tree.children_right[index]])):
        # turn node into a leaf by "unlinking" its children
        inner_tree.children_left[index] = TREE_LEAF
        inner_tree.children_right[index] = TREE_LEAF
        ##print("Pruned {}".format(index))

def prune_duplicate_leaves(mdl):
    # Remove leaves if both 
    decisions = mdl.tree_.value.argmax(axis=2).flatten().tolist() # Decision for each node
    prune_index(mdl.tree_, decisions)

在DecisionTreeClassifier clf上使用它：

prune_duplicate_leaves(clf)

编辑：修复了更复杂树木的错误

内容总结

以上是互联网集市为您收集整理的python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子全部内容，希望文章能够帮你解决python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/698390.html

来源：【匿名】

【上一篇】Python脚本无法通过TextMate运行,在IDLE和Eclipse中运行正常【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

本文K折验证拟采用的是Python 中 sklearn 包中的 StratifiedKFold 方法。方法思想详见：http://scikit-learn.org/stable/modules/cross_validation.htmlStratifiedKFold isa variation of k-fold which returns stratified folds:each set contains approximately the same percentage of samples of each target class as the complete set.【译】StratifiedKFold 是一种将数据集中每一类样本的数据成分，按均等方式拆分的方法。其...

python sklearn画ROC曲线

preface：最近《生物信息学》多次谈到AUC，ROC这两个指标，正在做的project，要求画ROC曲线，sklearn里面有相应的函数，故学习学习。AUC:ROC:具体使用参考sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.htmlhttp://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#example-model-selection-plot-roc-crossval-pyhttp://www.tuicool.com/articles/b22eYz(博...

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

使用清华源快速下载：pip install sklearn -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn包可替换成其他包，例如numpy，TensorFlow等包，一次不行，多重复下载几次（亲测可行）pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple 原文：https://www.cnblogs.com/zhff/p/13047751.html

python-Sklearn神经网络问题【代码】

我正在做一些神经网络练习,并且只停留在一个问题上.我的网络无法预测正确的结果,即使它说培训分数是97％. 这是我的代码：# Import `datasets` from `sklearn` from sklearn import datasets import pandas as pd from sklearn.model_selection import train_test_split # Import `train_test_split` from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neural...

看看pyhton的sklearn机器学习算法【代码】【图】

免费学习推荐：python视频教程导入必要通用模块import pandas as pdimport matplotlib.pyplot as pltimport osimport numpy as npimport copyimport reimport math一机器学习通用框架：以knn为例#利用邻近点方式训练数据不太适用于高维数据from sklearn.model_selection import train_test_split#将数据分为测试集和训练集from sklearn.neighbors import KNeighborsClassifier#利用邻近点方式训练数据#1.读取数据data=pd.read_exc...

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

参考文章 Python机器学习笔记：sklearn库的学习 ML神器：sklearn的快速使用机器学习与Sklearn的初识传统的机器学习任务从开始到建模的一般流程是：获取数据 → 数据预处理 → 训练建模 → 模型评估 → 预测，分类。 Skikit-learn算法库由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：常用的回归：线性、决策树、SVM、KNN ；常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；既可以回归也可以分类的算法：...

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略目录 TSNE简介 TSNE使用方法 TSNE代码实现 TSNE简介 t-分布随机邻居嵌入。t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转化为联合概率，并试图最小化低维嵌入和高维数据联合概率之间的Kullback-Leibler差异。t-SNE有一个非凸的代价函数，即通过不同的初始化，我们可以得到不同的结果。强烈建议使用另一种降维方法(如...

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

sklearn使用方法，包括从制作数据集，拆分数据集，调用模型，保存加载模型，分析结果，可视化结果 1 import pandas as pd2 import numpy as np3 from sklearn.model_selection import train_test_split #训练测试集拆分4 from sklearn.linear_model import LogisticRegression #逻辑回归模型5 import matplotlib.pyplot as plt #画图函数6 7 from sklearn.externals import joblib #保存加载模型函数joblib8 9 #以下为sklearn评测...

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

本人在此就不搬运书上关于密度聚类的理论知识了，仅仅实现密度聚类的模板代码和调用skelarn的密度聚类算法。有人好奇，为什么有sklearn库了还要自己去实现呢？其实，库的代码是比自己写的高效且容易，但自己实现代码会对自己对算法的理解更上一层楼。 #调用科学计算包与绘图包 import numpy as np import random import matplotlib.pyplot as plt # 获取数据 def loadDataSet(filename):dataSet=np.loadtxt(filename,dtype=np.flo...

python 使用sklearn绘制roc曲线选取合适的分类阈值

https://zhuanlan.zhihu.com/p/26293316 比如, 我已经初步训练好了一个模型,现在我想用这个模型从海量的无标记数据集挖掘出某一类数据A,并且想要尽量不包含其他所有类B 但我挖掘出的结果必然包含错误的,我拿出的A越多,同时附带的分类错数据B也就越多, 一般,拿出的A占总体比例越大,拿出的B类也会占总体比例越大,这个比例的变化一般是单调非线性的,且根据实际情况,我们可接受的比例也不同简单来说,不同的recall对应不同的precision,...

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样：将训练/测试数据集划分n_splits个互斥子集，每次只用其中一个子集当做测试集，剩下的（n_splits-1）作为训练集，进行n_splits次实验并得到n_splits个结果。注：对于不能均等分的数据集，前n_samples%n_spllits子集拥有n_samples//n_spllits+1个样本，其余子集都只有n_samples//n_spllits个样本。（例10行数据分3份，只有一份可分4行，其他均为3行）1 sklearn.model_se...

首页 / PYTHON / python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子

python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

python sklearn画ROC曲线

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

python-Sklearn神经网络问题【代码】

看看pyhton的sklearn机器学习算法【代码】【图】

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

python 使用sklearn绘制roc曲线选取合适的分类阈值

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

[转][python sklearn模型中random_state参数的意义]

python调用sklearn模块实现朴素贝叶斯(NBC)——以新闻分类为例【图】

python编程之sklearn.preprocessing.LabelBinarizer()的用法解析【代码】【图】

PYTHON - 相关标签

CLASS - 相关标签

TREE - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程