python实现决策树算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python实现决策树算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3309字，纯文字阅读大概需要5分钟。

内容图文

本文实例讲述了python实现决策树算法。分享给大家供大家参考，具体如下：

from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import tree
from sklearn import preprocessing
from sklearn.externals.six import StringIO

# 读取csv数据，并将数据和特征值存入字典和类标签列表
allElectronicsData = open(r'AllElectronics.csv', 'rt')
reader = csv.reader(allElectronicsData)
headers = next(reader)
# 原代码中用的是：
# headers = reader.next()
# 这句代码应该是之前的版本用的，现在已经更新了没有next这个函数

# print(headers)

featureList = []
labelList = []

for row in reader:
    labelList.append(row[len(row) - 1])
    rowDict = {}
    for i in range(1, len(row) - 1):
        rowDict[headers[i]] = row[i]
    featureList.append(rowDict)

# print(featureList)


# 将特征值矢量化,代表将各种参数进行矢量化
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()

# print("dummyX: " + str(dummyX))
# print(vec.get_feature_names())

# print("labelList: " + str(labelList))

# 将类标签列表矢量化，就是最后的结果
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
# print("dummyY: " + str(dummyY))

# 使用决策树进行分类
clf = tree.DecisionTreeClassifier()
# clf = tree.DecisionTreeClassifier(criterion = 'entropy')
clf = clf.fit(dummyX, dummyY)
# print("clf: " + str(clf))

# 将模型进行可视化
with open("allElectrionicInformationOri.dot", 'w') as f:
    f = tree.export_graphviz(clf, feature_names = vec.get_feature_names(), out_file = f)

oneRowX = dummyX[0, :]
# print("oneRowX: " + str(oneRowX))

# 接下来改变一些数据进行预测
newRowX = oneRowX

newRowX[0] = 0
newRowX[1] = 1
print("newRowX: " + str(newRowX))

predictedY = clf.predict(newRowX.reshape(1, -1))  # 预测的结果需要加上后面的reshape(1, -1),不然会
# 报错：
# ValueError: Expected 2D array, got 1D array instead:
# array=[0. 1. 1. 0. 1. 1. 0. 0. 1. 0.].
# Reshape your data either using array.reshape(-1, 1)
# if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
print("预测的

结果为： " + str(predictedY))

针对人员购买力进行一次分类，以此来对项目进行分类，在最后的过程中，还可以对结果进行一定的预测。代码见上，有一些优点和缺点

决策树算法的优点：

　　　　1）简单直观，生成的决策树很直观。

　　　　2）基本不需要预处理，不需要提前归一化，处理缺失值。

　　　　3）使用决策树预测的代价是O(log2m)。 m为样本数。

　　　　4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

　　　　5）可以处理多维度输出的分类问题。

　　　　6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释

　　　　7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。

　　　　8）对于异常点的容错能力好，健壮性高。

　　　　我们再看看决策树算法的缺点:

　　　　1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

　　　　2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

　　　　3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

　　　　4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。

　　　　5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

内容总结

以上是互联网集市为您收集整理的python实现决策树算法全部内容，希望文章能够帮你解决python实现决策树算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/429364.html

来源：【匿名】

【上一篇】python实现RSA算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【python实现决策树算法】教程文章相关的互联网学习教程文章

问题描述：给定一个n个顶点，m条边的有向图（其中某些边权可能为负，但保证没有负环）。请你计算从1号点到其他点的最短路（顶点从1到n编号）。输入格式：第一行两个整数n, m。接下来的m行，每行有三个整数u, v, l，表示u到v有一条长度为l的边。输出格式：共n-1行，第i行表示1号点到i+1号点的最短路。样例输入：3 31 2 -12 3 -13 1 2样例输出：-1-2数据规模与约定：对于10%的数据，n = 2，m = 2。对于30%的数据，n <= 5，m <= 10。对...

[数据结构与算法] : 栈的数组实现【代码】

头文件 1 typedef int ElementType;2 3#ifndef _STACK_AR_4#define _STACK_AR_5 6struct StackRecord;7 typedef struct StackRecord *Stack;8 9int IsEmpty(Stack S); 10int IsFull(Stack S); 11 Stack CreateStack(int MaxElements); 12void DisposeStack(Stack S); 13void MakeEmpty(Stack S); 14void Push(ElementType X, Stack S); 15ElementType Top(Stack S); 16void Pop(Stack S); 17ElementType TopAndPop(Stack S); 1819#...

典型算法的Python实现【代码】

算法如果用通俗易懂的语言来说，算法就是“把解决问题的步骤无一遗漏地用文字或图表示出来”。要是把这里的“用文字或图表示”替换为“用编程语言表达”，算法就变成了程序。而且请诸位注意这样一个条件，那就是“步骤必须是明确的并且步骤数必须是有限的”。典型算法计算不能自发地思考。因此计算机所执行的由程序表示的算法必须是由机械的步骤所构成。所谓“机械的步骤”，就是不用动任何脑筋，只要按照这个步骤做就一定能完成的...

数据结构和算法(Golang实现)(16)常见数据结构-字典【代码】

字典我们翻阅书籍时，很多时候都要查找目录，然后定位到我们要的页数，比如我们查找某个英文单词时，会从英语字典里查看单词表目录，然后定位到词的那一页。计算机中，也有这种需求。一、字典字典是存储键值对的数据结构，把一个键和一个值映射起来，一一映射，键不能重复。在某些教程中，这种结构可能称为符号表，关联数组或映射。我们暂且称它为字典，较好理解。如：键=>值"cat"=>2 "dog"=>1 "hen"=>3我们拿出键cat的值，就是2了...

8皇后以及N皇后算法探究，回溯算法的JAVA实现，非递归，循环控制及其优化【代码】【图】

上两篇博客8皇后以及N皇后算法探究，回溯算法的JAVA实现，递归方案8皇后以及N皇后算法探究，回溯算法的JAVA实现，非递归，数据结构“栈”实现研究了递归方法实现回溯，解决N皇后问题，下面我们来探讨一下非递归方案实验结果令人还是有些失望，原来非递归方案的性能并不比递归方案性能高代码如下：package com.newflypig.eightqueen;import java.util.Date;/*** 使用循环控制来实现回溯，解决N皇后* @author newflydd@189.cn* Time ...

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类（类别体系是自动构建的）。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。本文要介绍一种称为K-均值（K-means）聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。在介绍K-均值之前，先讨论一席簇识别（cluster identification）。簇识别给出聚类结果的含义。假定有一些...

【C语言】两种方式实现冒泡排序算法【代码】

题目要求编写一个C语言程序,实现基本的冒泡排序算法.算法冒泡排序,用一句话来总结:一组数中,相邻的两个数进行比较、交换,将最大(小)数交换至尾(首)部,即完成了一次冒泡排序要想对N个数字进行排序,循环N次即可.如果真的不理解冒泡排序算法,请点击:冒泡排序_360百科核心代码//方式一:从头向尾遍历,将最大数(相对)沉入尾部(相对) void BubbleSort1(int *arr,int sz){int i = 0;int j = 0;assert(arr);for(i=0;i<sz-1;i++){for(j=0;j<s...

八大排序算法的java实现【代码】

有时间再贴算法分析图JDK7的Collections.sort()的算法是TimSort, 适应性的归并排序, 比较晦涩难懂, 这里没有实现publicclass mySort {// 冒泡排序publicstaticvoid myBubbleSort(int[] array) {int lastExchange = array.length - 1; //记录最后交换位置, 避免重复比较for (int i = lastExchange - 1; i >= 0; --i) {for (int j = 0; j <= i; ++j) {if (array[j] > array[j + 1]) {int temp = array[j];array[j] = array[j + 1]...

数据结构与算法 -- Python实现【归并排序算法】【代码】【图】

摘要：本文主要介绍的是python实现归并排序算法，本文首先会介绍归并排序的原理，并以一张思维导图来加深读者对该算法过程的理解，紧接着进行代码的实现。最后介绍该算法的时间复杂度。一.原理：1.将一个序列从中间位置分成两个序列；2.在将这两个子序列按照第一步继续二分下去；3.直到所有子序列的长度都为1，也就是不可以再二分截止。这时候再两两合并成一个有序序列即可。下面的这张图片可以很清晰的解释该原理：二.代码如下...

组合算法实现【代码】【图】

用程序实现，找出从n个不同元素中，任取m(m≤n)个元素所有的组合。需要用到下面的递推公式：c(n,m)=c(n-1,m-1)+c(n-1,m) 从n个元素中选取m个元素，可以拆分成：先选取最后一个元素n，再从n-1 个元素中选取m-1 个元素，然后加上从排除n的 n-1 个元素中选取m元素。递归实现代码： 1publicstaticvoid GetCombination(int source, int num, ref List<string> result, int[] temp = null)2 {3if (temp == null)4 {5 ...

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

一、环境：Python 3.7.4Pycharm Community 2019.3二、问题：对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。三、理论推导　此处依照我个人理解所写，错误之处欢迎指出 K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值选取聚类中心：　　聚类中心的选取可以选择随机选取、人工选取。K-means+...

双向广搜的DIJKSTRA算法--简易的北京地铁导航实现【图】

本学期的课程设计，实现最短路的算法，于是采用了DIJKSTRA算法，并用双向广搜优化了。实现了简易的北京地铁导航。于是把代码分享出来。（核心代码是find_min()，Dijkstra()部分）转载或者用到里面的代码请注明博主姓名以及出处！（注：只输入了图片里的地铁站信息，所用到的文件最下面有下载，因为这些文件是我和同学一条一条的录入的，所以如果你用到请务必注明这些文件的出处）代码：/*****************************************...

LDA工程实践之算法篇之（一）算法实现正确性验证(转)

研究生二年级实习（2010年5月）开始，一直跟着王益（yiwang）和靳志辉（rickjin）学习LDA，包括对算法的理解、并行化和应用等等。毕业后进入了腾讯公司，也一直在从事相关工作，后边还在yiwang带领下，与孙振龙、严浩等一起实现了一套大规模并行的LDA训练系统——Peacock。受rick影响，决定把自己对LDA工程实践方面的一些理解整理出来，分享给大家，其中可能有一些疏漏和错误，还请批评指正。Rickjin在《LDA数学八卦》[1]一文中已经...

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

摘要：Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

摘自：http://blog.fens.me/mahout-recommendation-api/测试程序：RecommenderTest.java测试数据集：item.csv 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java package org.conan.mymahout.recommendation.job;import java.io.IOException; import java.util.List;import org.apache.mahout.cf.tast...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / python实现决策树算法

python实现决策树算法

内容导读

内容图文

内容总结

内容备注

内容手机端

【python实现决策树算法】教程文章相关的互联网学习教程文章

spfa 的算法实现之一

[数据结构与算法] : 栈的数组实现【代码】

典型算法的Python实现【代码】

数据结构和算法(Golang实现)(16)常见数据结构-字典【代码】

8皇后以及N皇后算法探究，回溯算法的JAVA实现，非递归，循环控制及其优化【代码】【图】

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

【C语言】两种方式实现冒泡排序算法【代码】

八大排序算法的java实现【代码】

数据结构与算法 -- Python实现【归并排序算法】【代码】【图】

组合算法实现【代码】【图】

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

双向广搜的DIJKSTRA算法--简易的北京地铁导航实现【图】

LDA工程实践之算法篇之（一）算法实现正确性验证(转)

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

PYTHON - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程