首页 / 算法 / 2021-03-15 数据挖掘算法—K-Means算法 Python版本

2021-03-15 数据挖掘算法—K-Means算法 Python版本

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了2021-03-15 数据挖掘算法—K-Means算法 Python版本，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3311字，纯文字阅读大概需要5分钟。

内容图文

数据挖掘算法—K-Means算法 Python版本

简介

又叫K-均值算法，是非监督学习中的聚类算法。

基本思想

k-means算法比较简单。在k-means算法中，用cluster来表示簇；容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下：

选取k个初始质心（作为初始cluster，每个初始cluster只包含一个点）；

repeat：

对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster；

重新计算k个cluster对应的质心（质心是cluster中样本点的均值）；

until 质心不再发生变化

repeat的次数决定了算法的迭代次数。实际上，k-means的本质是最小化目标函数，目标函数为每个点到其簇质心的距离的平方和：

2021-03-15 数据挖掘算法—K-Means算法 Python版本 - 文章图片

N是元素个数，x表示元素，c(j)表示第j簇的质心

算法复杂度

时间复杂度是O(nkt) ,其中n代表元素个数，t代表算法迭代的次数，k代表簇的数目

优缺点

优点

简单、快速；

对大数据集有较高的效率并且是可伸缩性的；

时间复杂度近于线性，适合挖掘大规模数据集。

缺点

k-means是局部最优，因而对初始质心的选取敏感；

选择能达到目标函数最优的k值是非常困难的。

代码

# coding:utf-8

import numpy as np
import matplotlib.pyplot as plt


def loadDataSet(fileName):
    '''
    加载测试数据集，返回一个列表，列表的元素是一个坐标
    '''
    dataList = []
    with open(fileName) as fr:
        for line in fr.readlines():
            curLine = line.strip().split('\t')
            fltLine = list(map(float, curLine))
            dataList.append(fltLine)
    return dataList


def randCent(dataSet, k):
    '''
    随机生成k个初始的质心
    '''
    n = np.shape(dataSet)[1]  # n表示数据集的维度
    centroids = np.mat(np.zeros((k, n)))
    for j in range(n):
        minJ = min(dataSet[:, j])
        rangeJ = float(max(dataSet[:, j]) - minJ)
        centroids[:, j] = np.mat(minJ + rangeJ * np.random.rand(k, 1))
    return centroids


def kMeans(dataSet, k):
    '''
    KMeans算法，返回最终的质心坐标和每个点所在的簇
    '''
    m = np.shape(dataSet)[0]  # m表示数据集的长度（个数）
    clusterAssment = np.mat(np.zeros((m, 2)))

    centroids = randCent(dataSet, k)  # 保存k个初始质心的坐标
    clusterChanged = True
    iterIndex = 1  # 迭代次数
    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            minDist = np.inf
            minIndex = -1
            for j in range(k):
                distJI = np.linalg.norm(np.array(centroids[j, :]) - np.array(dataSet[i, :]))
                if distJI < minDist:
                    minDist = distJI
                    minIndex = j
            if clusterAssment[i, 0] != minIndex: clusterChanged = True
            clusterAssment[i, :] = minIndex, minDist ** 2
            print("第%d次迭代后%d个质心的坐标:\n%s" % (iterIndex, k, centroids))  # 第一次迭代的质心坐标就是初始的质心坐标
            iterIndex += 1
        for cent in range(k):
            ptsInClust = dataSet[np.nonzero(clusterAssment[:, 0].A == cent)[0]]  # get all the point in this cluster
            centroids[cent, :] = np.mean(ptsInClust, axis=0)
    return centroids, clusterAssment


def showCluster(dataSet, k, centroids, clusterAssment):
    '''
    数据可视化,只能画二维的图（若是三维的坐标图则直接返回1）
    '''
    numSamples, dim = dataSet.shape
    if dim != 2:
        return 1

    mark = ['or', 'ob', 'og', 'ok', 'oy', 'om', 'oc', '^r', '+r', 'sr', 'dr', '<r', 'pr']

    # draw all samples
    for i in range(numSamples):
        markIndex = int(clusterAssment[i, 0])
        plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])

    mark = ['Pr', 'Pb', 'Pg', 'Pk', 'Py', 'Pm', 'Pc', '^b', '+b', 'sb', 'db', '<b', 'pb']
    # draw the centroids
    for i in range(k):
        plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize=12)

    plt.show()


if __name__ == '__main__':
    dataMat = np.mat(loadDataSet('./data.txt'))  # mat是numpy中的函数，将列表转化成矩阵

    k = 5  # 选定k值，也就是簇的个数（可以指定为其他数）
    cent, clust = kMeans(dataMat, k)

    showCluster(dataMat, k, cent, clust)

2021-03-15 数据挖掘算法—K-Means算法 Python版本 - 文章图片

内容总结

以上是互联网集市为您收集整理的2021-03-15 数据挖掘算法—K-Means算法 Python版本全部内容，希望文章能够帮你解决2021-03-15 数据挖掘算法—K-Means算法 Python版本所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/598223.html

来源：【匿名】

【上一篇】非递归遍历二叉树---c++写法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【2021-03-15 数据挖掘算法—K-Means算法 Python版本】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

(期末考试快到了，所以比较粗糙，请各位读者理解。。)一、概念DBSCAN是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类。二、伪代码1 将所有点标记为核心点、边界点和噪声点。2 删除噪声点。3 为距离在Eps之内的所有核心点之间赋予一条边。4 每组连通的核心点形成一个簇。5 将每个边界点指派到一个与之关联的核心点的簇中。...

机器学习/数据挖掘/算法岗位面试题汇总

1、过拟合和欠拟合怎么判断，如何解决？答：主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低，但是测试误差较高，过拟合的概率较大，如果训练误差和测试误差都很高，一般是欠拟合。过拟合可以从增加样本量，减少特征数，降低模型复杂度等方面入手，实际的例子比如线性回归中，对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之，需要考虑模型是否收敛，特征是否过少，模型是否过于...

机器学习与数据挖掘中的十大经典算法

机器学习与数据挖掘中的十大经典算法背景：top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告，会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好，开始着手解决这个事情。找了一系列的大牛（都是数据挖掘的大牛），都觉得想法很好，但是都不愿自己干。原因估计有一下几种：1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据...

数据挖掘十大算法

大数据时代数据挖掘十大经典算法不不过选中的十大算法，事实上參加评选的18种算法。实际上随便拿出一种来都能够称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1.C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进：1)用信息增益率来选择属性。克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行...

K-均值算法（数据挖掘无监督学习）【代码】【图】

一、无监督学习　　1、聚类：是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。因此，一个聚类就是一些数据实例的集合。聚类技术经常被称为无监督学习。二、K-均值聚类　　1、k—均值算算法：是发现给定数据集k个簇的算法　　2、步骤：　　　　1）、随机选取k个数据点作为初始的聚类中心（要求发现k个簇）。　　　　2）、把每个数据点分配给距离它最近的聚类中心（对图中的所有点求到这K个种子点的距离，假如点P离种子...

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

300G炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程(高清)?全网炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程等高端课程，最牛B的集合，基础入门到精通项目实战，带你学习大数据，带你吊炸天！1.机器人学习2.大数据的统计学基础3.大数据的矩阵基础4.SAS数据分析视频教程5.R语言全套视频教程6.Clementine视频教程7.数据挖掘教程8.数据分析与SPSS（完整）共12周9.大数据快速数据挖掘平台RapidMiner...

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

0 简介0.1 主题0.2 目标0.2.1 能掌握聚类的距离计算方式0.2.2 能够掌握聚类的各种方式1 聚类定义2 距离计算与相似度方法总结2.1 距离算法2.2 余弦相似度与Pearson相似度3 K-Means算法过程3.1 算法过程 3.2 代码实现# 导入包import numpy as np import sklearn from sklearn.datasets import make_blobs # 导入产生模拟数据的方法from sklearn.cluster import KMeans # 导入kmeans 类# 1. 产生模拟数据；random_state此参数让结果...

数据挖掘算法：关联分析二（FP-tree算法）

三.FP-tree算法　　下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。根据每条事务中事务项的新顺序，依此插入到一棵以Null为...

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种，各自是：Naive Bayes、TAN、BAN和GBN。　　贝叶斯网络是一个带有概率凝视的有向无环图，图中的每个结点均表示一个随机变量,图中两结点间若存在着一条弧，则表示这两结点相相应的随机变量是概率相依的，反之则说...

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

感知机—神经网络最基本的模型感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取1和0）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中，w0? 是一个偏差值，这个条件是必要的，如果没有这个条件，切平面会经过原点。我们需要这个偏差值控制决策平面到原点的距离。下图中感知机实现了与门和或门的功能为了求得合适的超平面，我们导入了基于误分类的损...

数据挖掘之Apriori算法详解和Python实现代码分享【图】

关联规则挖掘（Association rule mining）是数据挖掘中最活跃的研究方法之一，可以用来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布) 基本概念 1、支持度的定义：support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。 2、自信度的定义：confidence(X-->Y) = |X交...

数据挖掘 - 相关标签

数据挖掘数据挖掘导论数据挖掘的算法数据挖掘入门数据挖掘十大算法数据挖掘算法

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 2021-03-15 数据挖掘算法—K-Means算法 Python版本

2021-03-15 数据挖掘算法—K-Means算法 Python版本

内容导读

内容图文

数据挖掘算法—K-Means算法 Python版本

内容总结

内容备注

内容手机端

【2021-03-15 数据挖掘算法—K-Means算法 Python版本】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

机器学习/数据挖掘/算法岗位面试题汇总

机器学习与数据挖掘中的十大经典算法

数据挖掘十大算法

K-均值算法（数据挖掘无监督学习）【代码】【图】

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

数据挖掘算法：关联分析二（FP-tree算法）

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

数据挖掘之Apriori算法详解和Python实现代码分享【图】

Thinking in SQL系列之四：数据挖掘C4.5决策树算法【图】

SQL Server 2008中的9种数据挖掘算法【图】

数据挖掘算法之-关联规则挖掘(AssociationRule)（购物篮分析）

数据挖掘决策树算法ID3通俗演绎【图】

PYTHON - 相关标签

数据挖掘 - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程