首页 / PYTHON / 吴裕雄 python 机器学习-DMT（1）

吴裕雄 python 机器学习-DMT（1）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了吴裕雄 python 机器学习-DMT（1），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3486字，纯文字阅读大概需要5分钟。

内容图文

            import
             numpy as np

            import
             operator as op


            from math import log

def createDataSet():
    dataSet = [[1, 1, ‘yes‘],
               [1, 1, ‘yes‘],
               [1, 0, ‘no‘],
               [0, 1, ‘no‘],
               [0, 1, ‘no‘]]
    labels = [‘no surfacing‘,‘flippers‘]
    return dataSet, labels

dataSet,labels = createDataSet()
print(dataSet)
print(labels)

def calcShannonEnt(dataSet):
    labelCounts = {}
    for featVec in dataSet: 
        currentLabel = featVec[-1]
        if(currentLabel notin labelCounts.keys()): 
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    rowNum = len(dataSet)
    for key in labelCounts:
        prob = float(labelCounts[key])/rowNum
        shannonEnt -= prob * log(prob,2)
    return shannonEnt

shannonEnt = calcShannonEnt(dataSet)
print(shannonEnt)

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if(featVec[axis] == value):
            reducedFeatVec = featVec[:axis]    
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

retDataSet = splitDataSet(dataSet,1,1)
print(np.array(retDataSet))
retDataSet = splitDataSet(dataSet,1,0)
print(retDataSet)

def chooseBestFeatureToSplit(dataSet):
    numFeatures = np.shape(dataSet)[1]-1      
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):        
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)       
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     
        if (infoGain > bestInfoGain):       
            bestInfoGain = infoGain        
            bestFeature = i
    return bestFeature 

bestFeature = chooseBestFeatureToSplit(dataSet)
print(bestFeature)

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if(vote notin classCount.keys()): 
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
    if(classList.count(classList[0]) == len(classList)): 
        return classList[0]
    if len(dataSet[0]) == 1: 
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]   
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

myTree = createTree(dataSet,labels)
print(myTree)

def classify(inputTree,featLabels,testVec):
    for i in inputTree.keys():
        firstStr = i
        break
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict): 
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else:
        classLabel = valueOfFeat
    return classLabel

featLabels = [‘no surfacing‘, ‘flippers‘]
classLabel = classify(myTree,featLabels,[1,1])
print(classLabel)

import pickle

def storeTree(inputTree,filename):
    fw = open(filename,‘wb‘)
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename):
    fr = open(filename,‘rb‘)
    return pickle.load(fr)

filename = "D:\\mytree.txt"
storeTree(myTree,filename)
mySecTree = grabTree(filename)
print(mySecTree)

featLabels = [‘no surfacing‘, ‘flippers‘]
classLabel = classify(mySecTree,featLabels,[0,0])
print(classLabel)

技术分享图片

原文：https://www.cnblogs.com/tszr/p/10148597.html

内容总结

以上是互联网集市为您收集整理的吴裕雄 python 机器学习-DMT（1）全部内容，希望文章能够帮你解决吴裕雄 python 机器学习-DMT（1）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1180027.html

来源：【匿名】

【上一篇】python 介绍，环境配置【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【吴裕雄 python 机器学习-DMT（1）】教程文章相关的互联网学习教程文章

可能是史上最全的机器学习和Python（包括数学）速查表【图】

新手学习机器学习很难，就是收集资料也很费劲。所幸Robbie Allen从不同来源收集了目前最全的有关机器学习、Python和相关数学知识的速查表大全。强烈建议收藏！机器学习有很多方面。当我开始刷新这个主题时，我遇到了各种“速查表”，仅仅列出了需要知道的给定主题的所有要点。最后，我收集了与机器学习相关的速查表。有些我经常参考，认为其他人也可能从中受益。因此，这篇文章把我在网上发现的很好的27个速查表分享出来，以供大...

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

摘要：Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...

python学习之机器学习【图】

线性回归第一个机器学习算法 - 单变量线性回归原文：https://blog.51cto.com/13810716/2468505

Python机器学习（三十四）Numpy 介绍

Numpy代表numeric python，是一个用于计算、处理多维数组的python包。NumPy包由Travis Oliphant在2005年创建，基于原来的Numeric模块与Numarray模块，大部分是用c语言编写的。NumPy提供各种强大的数据结构(多维数组和矩阵)，以及对这些数据结构的强大运算能力。为什么需要NumPy随着数据科学革命的到来，NumPy、SciPy、pandas等数据分析库得到了很大的发展。python的语法比其他编程语言简单很多，同时又具有强大的数据计算能力，是数...

吴裕雄 python 机器学习-DMT（1）【代码】【图】

import numpy as np import operator as opfrom math import logdef createDataSet():dataSet = [[1, 1, ‘yes‘],[1, 1, ‘yes‘],[1, 0, ‘no‘],[0, 1, ‘no‘],[0, 1, ‘no‘]]labels = [‘no surfacing‘,‘flippers‘]return dataSet, labelsdataSet,labels = createDataSet() print(dataSet) print(labels)def calcShannonEnt(dataSet):labelCounts = {}for featVec in dataSet: currentLabel = featVec[-1]if(currentLabel...

机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价【代码】

python3 学习api的使用git: https://github.com/linyi0604/MachineLearning代码： 1from sklearn.datasets import load_boston2from sklearn.cross_validation import train_test_split3from sklearn.preprocessing import StandardScaler4from sklearn.tree import DecisionTreeRegressor5from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error6import numpy as np7 8‘‘‘ 9回归树： 10 严格上说 ...

Python机器学习--聚类【代码】【图】

K-means聚类算法测试：# -*- coding: utf-8 -*-""" Created on Thu Aug 31 10:59:20 2017@author: Administrator """‘‘‘ 现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据，这八个变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。 ‘‘‘import numpy as np from sklearn.cluster imp...

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）【代码】【图】

一、聚类的概念聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。我们事先并不知道数据的正确结果(类标)，通过聚类算法来发现和挖掘数据本身的结构信息，对数据进行分簇(分类)。聚类算法的目标是，簇内相似度高，簇间相似度低二、基本的聚类分析算法　1. K均值(K-Means)：　　　　基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇。　　2. 凝聚的层次距...

python—机器学习合并数据【代码】

import numpy as npa = np.arange(6).reshape(2,3)b = np.random.randint(10,20,size=(4,3))#concatenate(array_list,axis=0/1) 沿着指定axis进行数组合并 0为行，1为列，默认为0#np.vstack或者np.row_stack（array_list）按照行合并#np.hstack或者np.column_stack(array_list) 按照列合并c=np.concatenate([a,b])d=np.vstack([a,b])e=np.row_stack([a,b])m= np.arange(6).reshape(3,2)n= np.random.randint(10,20,size=(3,2))p= n...

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测【代码】

使用python3 学习了线性回归的api分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测我把数据集下载到了本地，可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle 1import numpy as np2import pandas as pd3from sklearn.cross_validation import train_test_split4from sklearn.preprocessing import StandardScaler5from sklearn.linear_model import LogisticRegression, SGDClassifier6...

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型【代码】【图】

from sklearn.preprocessing import StandardScaler#数据预处理标准化StandardScaler模型def test_StandardScaler():X=[[1,5,1,2,10],[2,6,3,2,7],[3,7,5,6,4,],[4,8,7,8,1]]print("before transform:",X)scaler=StandardScaler()scaler.fit(X)print("scale_ is :",scaler.scale_)print("mean_ is :",scaler.mean_)print("var_ is :",scaler.var_)print("after transform:",scaler.transform(X))# 调用 test_StandardScaler test_S...

python机器学习密码之初来乍到【图】

机器学习近来火得可谓人尽皆知。其实楼主现在的研究方向是椭圆曲线密码的硬件实现。so，我一直以为这跟Python，神经网络啥的确是八竿子打不着，然而，这个世界上就是不缺那种能开先河能摆证据撂服众生的大神。举个栗子这篇文章learing the enigma with recurrent Neural Networks。是 2017年发表于AAAI 的一篇文章，AAAI 2017是指第31届人工智能大会AAAI-17，是人工智能领域的最重磅会议之一。所以楼主也是很好奇，这里的RNN究竟是...

菜鸟入门_Python_机器学习（3）_回归【代码】【图】

@sprt *写在开头：博主在开始学习机器学习和Python之前从未有过任何编程经验，这个系列写在学习这个领域一个月之后，完全从一个入门级菜鸟的角度记录我的学习历程，代码未经优化，仅供参考。有错误之处欢迎大家指正。系统：win7-CPU; 编程环境：Anaconda2-Python2.7，IDE：pycharm5; 参考书籍：《Neural Networks and Learning Machines(Third Edition)》- Simon Haykin; 《Machine Learning in Action》- Peter Harringto...

吴裕雄 python 机器学习——数据预处理正则化Normalizer模型【代码】【图】

from sklearn.preprocessing import Normalizer#数据预处理正则化Normalizer模型def test_Normalizer():X=[[1,2,3,4,5],[5,4,3,2,1],[1,3,5,2,4,],[2,4,1,3,5]]print("before transform:",X)normalizer=Normalizer(norm=‘l2‘)print("after transform:",normalizer.transform(X))# 调用 test_Normalizer test_Normalizer() 原文：https://www.cnblogs.com/tszr/p/10801982.html

机器学习之路：python k近邻回归预测波士顿房价【代码】

python3 学习机器学习api使用两种k近邻回归模型分别是平均k近邻回归和距离加权k近邻回归进行预测git: https://github.com/linyi0604/MachineLearning代码： 1from sklearn.datasets import load_boston2from sklearn.cross_validation import train_test_split3from sklearn.preprocessing import StandardScaler4from sklearn.neighbors import KNeighborsRegressor5from sklearn.metrics import r2_score, mean_squared_err...

首页 / PYTHON / 吴裕雄 python 机器学习-DMT（1）

吴裕雄 python 机器学习-DMT（1）

内容导读

内容图文

内容总结

内容备注

内容手机端

【吴裕雄 python 机器学习-DMT（1）】教程文章相关的互联网学习教程文章

机器学习 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程