首页 / 算法 / python-Kmeans\Kmeans++算法理解及代码实现

python-Kmeans\Kmeans++算法理解及代码实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-Kmeans\Kmeans++算法理解及代码实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3463字，纯文字阅读大概需要5分钟。

内容图文

$python-Kmeans\Kmeans++算法理解及代码实现$

一、环境：

Python 3.7.4
Pycharm Community 2019.3

二、问题：

对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。

技术分享图片

三、理论推导

　此处依照我个人理解所写，错误之处欢迎指出

K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值

选取聚类中心：
　　聚类中心的选取可以选择随机选取、人工选取。K-means++相对K-means来说在第一次选取聚类中心方面有所改进，K-means++在初次选择聚类中心时会使各个聚类中心之间的距离都尽可能的远，以得到更合理的分类。如果条件允许的话，我认为人工选取聚类中心的结果会更符合我们的需求。
分类
　　遍历所有待分类的点，根据我们选择的度量方法来判断点的类型。（我的代码直接以欧式距离作为度量来判断类型）
度量方法的选择要根据实际情况以及需求具体分析选择。同一数据使用不同的度量方法最后的分类结果可能会不同。
调整聚类中心
　　计算已经分好类的样本点的均值，以均值作为新的聚类中心。
若首次聚类中心选择很不合理的话，聚类中心的调整也会受到影响，导致最后分类结果不理想。
再次分类并调整聚类中心直到调整幅度小于阈值或运行轮数大于阈值
　　在调整了聚类中心之后再次进行步骤2，3直到聚类中心调整的幅度小于我们设定的一个阈值，或者循环运行的轮数大于我们的阈值，就认为分类结束。

四、代码实现

　　代码主要用于理解算法，有些地方可能不够严谨，还请轻喷??????

　因为样本点较少，所以俩个算法运行结果相同，读者可自行增加样本检测

K-means:

             1
            #
             kmeans input_data为待分类数据，k为分类类别数
             2
            def
             myKmeans(input_data, k):

             3
            #
             region 选择类中心
             4     index_cls = []
 5while index_cls.__len__() < k:
 6         n = np.random.randint(0, input_data.shape[0], 1)
 7if n notin index_cls:
 8            index_cls.append(n[0])
 9     point_cls = input_data[np.array(index_cls)]  # piont_cls为选好的三个聚类中心10# endregion11# region 更新样本点类型12# tag_sample = [-1 for i in range(input_data.shape[0])]  # 六个样本点的标签13while True:
14# 计算样本点到聚类中心的欧式距离平方（无需开根号） (x1-x2) ** 2 + (y1 - y2) ** 215# axis = 0 为按行取值，axis = 1 为按列取值16         dis_cls = np.array([np.sum((input_data - i) ** 2, axis=1) for i in point_cls])  # 计算六个点距离三个聚类中心的值,三行六列17# 0: 1 2 3 4 5 618# 1: 6 5 4 2 3 419# 2: 4 4 5 3 4 520# 选取每一列最小值索引作为这个样本点的距离21         min_tag = np.argmin(dis_cls, axis=0)  # 选取每一列的最小值（即最小距离）,为本次计算样本点的tag22# endregion2324# region 计算新类中心25         new_piont_cls = np.array(list([np.average(input_data[min_tag == i], axis=0) for i in range(k)]))
26# endregion2728# region 计算新类中心的样本类别，做判断，若类别有变化，则更新类别，若不变化，结束算法29# 比较俩个类的中心是否满足一定条件(一般算和小于一定的值)30         gap = np.sum((new_piont_cls - point_cls) ** 2)  # 若样本点改变值和小于1，则表示分类结束31if gap < 1:
32break33else:
34             point_cls = new_piont_cls
35# 可以比较样本的类别变化，若样本类别无变化，则停止36# endregion37return min_tag  # 返回input_data分类(0,1,2) 三类

K-means++:

             1
            #
             kmeans++ input_data为待分类数据，k为分类类别数
             2
            def
             myKmeanspp(input_data, k):

             3
            #
             region 选择类中心
             4
            #
             选取相距距离最远的点作为聚类中心
             5     point_cls = [list([np.random.randint(0, input_data.shape[0]), 1])]
 6# 计算第二个点，即获取离选好的类中心点最远的点 7while point_cls.__len__() < k:
 8         dis = np.array([sum((input_data[j] - point_cls[i]) ** 2 for i in range(point_cls.__len__())) for j in 9                         range(input_data.__len__())])
10         sample_dis_cls_min = np.min(dis, axis=0)
11         index_max_dis_sample = np.argmax(sample_dis_cls_min)
12        point_cls.append(list(input_data[index_max_dis_sample]))
13     point_cls = np.array(point_cls)
14# endregion15# region 更新样本点类型16# tag_sample = [-1 for i in range(input_data.shape[0])]  # 六个样本点的标签17while True:
18# 计算样本点到聚类中心的欧式距离平方（无需开根号） (x1-x2) ** 2 + (y1 - y2) ** 219# axis = 0 为按行取值，axis = 1 为按列取值20         dis_cls = np.array([np.sum((input_data - i) ** 2, axis=1) for i in point_cls])  # 计算六个点距离三个聚类中心的值,三行六列21# 0: 1 2 3 4 5 622# 1: 6 5 4 2 3 423# 2: 4 4 5 3 4 524# 选取每一列最小值索引作为这个样本点的距离25         min_tag = np.argmin(dis_cls, axis=0)  # 选取每一列的最小值（即最小距离）,为本次计算样本点的tag26# endregion2728# region 计算新类中心29         new_piont_cls = np.array(list([np.average(input_data[min_tag == i], axis=0) for i in range(3)]))
30# endregion3132# region 计算新类中心的样本类别，做判断，若类别有变化，则更新类别，若不变化，结束算法33# 比较俩个类的中心是否满足一定条件(一般算和小于一定的值)34         gap = np.sum((new_piont_cls - point_cls) ** 2)  # 若样本点改变值和小于1，则表示分类结束35if gap < 1:
36break37else:
38             point_cls = new_piont_cls
39# 可以比较样本的类别变化，若样本类别无变化，则停止40# endregion41return min_tag

技术分享图片

原文：https://www.cnblogs.com/FSeng/p/12199333.html

内容总结

以上是互联网集市为您收集整理的python-Kmeans\Kmeans++算法理解及代码实现全部内容，希望文章能够帮你解决python-Kmeans\Kmeans++算法理解及代码实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1192947.html

来源：【匿名】

【上一篇】Minimax极大极小算法、Alpha-Beta Pruning剪枝算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【python-Kmeans\Kmeans++算法理解及代码实现】教程文章相关的互联网学习教程文章

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

一、环境：Python 3.7.4Pycharm Community 2019.3二、问题：对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。三、理论推导　此处依照我个人理解所写，错误之处欢迎指出 K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值选取聚类中心：　　聚类中心的选取可以选择随机选取、人工选取。K-means+...

LeetCode算法题-C#代码实现-栈（一）【代码】

20. Valid Parentheses有效的括号解题思路将括号比较后者后，不同的入栈，相同的出栈，最后字符串遍历结束后栈为空则匹配成功。publicbool IsValid(string s) {//声明字典，括号匹配键值对Dictionary<char, char> dict = new Dictionary<char, char>();dict.Add(‘)‘, ‘(‘);dict.Add(‘]‘, ‘[‘);dict.Add(‘}‘, ‘{‘);Stack<char> stack = new Stack<char>();//遍历字符s，直到遍历s所有字符结束循环for (int i = 0; i < s...

deep learning 自编码算法详细理解与代码实现（超详细）【代码】【图】

在有监督学习中，训练样本是有类别标签的。现在假设我们只有一个没有带类别标签的训练样本集合，其中。自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值，比如。下图是一个自编码神经网络的示例。通过训练，我们使输出接近于输入。当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。举例来说，假设某个自编码神经网络的输入是...

【字符串处理算法】字符串包含的算法设计及C代码实现【图】

一、需求描述给定一个长字符串和一个短字符串，编写程序判断短字符串中的所有字符是否都在长字符串中。如果是，则长字符串包含短字符串；反之，不包含。为了尽量包含大多数情况，字符串中可以包含大小写英文字母、数字和各种标点符号，并且区分大小写字母。下面举几个例子予以说明：1.如果长字符串是“ABCDE”，短字符串是“ADC”，那么短字符串中的所有字符都在长字符串中，即长字符串包含了短字符串。2.如果长字符串是“ABCDE”，...

八大经典排序算法的代码实现【代码】

冒泡排序： 1//冒泡排序2//时间复杂度为O(N^2)，空间复杂度为O（N） 3publicclass BubbleSort {4publicstaticvoid bubbleSort(int[] arr) {5if (arr.length == 0 || arr.length == 1) {6return;7 } else {8// 随着每轮比较的进行，都有一个大数沉到后面排好序，因此外层的循环长度应该递减 9for (int end = arr.length - 1; end > 0; end--) { 10for (int i = 0; i < end; i++) { 11if (arr[i] > arr[i + 1]) {...

计数排序Java代码实现【代码】

结论：由于计数排序不是基于比较的排序，所以时间复杂度可以突破O(nlgn);计数排序时间复杂度为O(n),额外空间复杂度为O(n);Java实现代码如下： 1package com.cmbc.test1;2 3publicclass CountSorting {4 5publicstaticvoid countSort(int[] arr){6if(arr==null||arr.length<2){7return;8 }9int max = Integer.MIN_VALUE; 10for(int i = 0 ;i<arr.length;i++){ 11 max = Math.max(max, arr[i]); 12 } 13in...

排序算法——快速排序的图解、代码实现以及时间复杂度分析

在C++的泛型排序中，拷贝对象需要很大的开销，而比较对象常常是相对省时的（编译器的自动优化）。在这种情况下，如果我们能够使用更少的数据移动，那么有理由让一个算法多使用一些比较。而快速排序（Quicksort）满足了这种特点，实际上C++中通常所使用的排序例程就是使用的快速排序。快速排序也是一种分治的递归算法。它的平均运行时间是O(NlogN)，最坏情形性能为O(N2)。将数组S排序的基本算法由下列简单的四步组成：如果S中元素个...

深入一致性哈希(Consistent Hashing)算法原理，并附100行代码实现【代码】【图】

本文为实现分布式任务调度系统中用到的一些关键技术点分享——Consistent Hashing算法原理和Java实现，以及效果测试。　背景介绍　　一致性Hashing在分布式系统中经常会被用到，用于尽可能地降低节点变动带来的数据迁移开销。Consistent Hashing算法在1997年就在论文Consistenthashing and random trees中被提出。　　先来简单理解下Hash是解决什么问题。假设一个分布式任务调度系统，执行任务的节点有n台机器，现有m个job在这n台...

PCB 挺有意思的基数排序----C#代码实现【代码】【图】

今天在头条看一个很有意思的排序算法【基数排序】，以前所学习的排序算法都是基于数值对比的方式排序的,而这个算法挺有意思的非常独特。但从网上看到的例子通常是对个位,十位处理，并转为对应的桶索引的方式实现，这里将此算法用C#实现，并以位运算的新方式实现。一.代码实现staticvoid Main(string[] args){//待排序数组List<int> arrlist = new List<int>() { 72, 11, 82, 32, 44, 13, 17, 95, 54, 28, 79, 56 };int Number = 3...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / python-Kmeans\Kmeans++算法理解及代码实现

python-Kmeans\Kmeans++算法理解及代码实现

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-Kmeans\Kmeans++算法理解及代码实现】教程文章相关的互联网学习教程文章

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

LeetCode算法题-C#代码实现-栈（一）【代码】

deep learning 自编码算法详细理解与代码实现（超详细）【代码】【图】

【字符串处理算法】字符串包含的算法设计及C代码实现【图】

八大经典排序算法的代码实现【代码】

计数排序Java代码实现【代码】

排序算法——快速排序的图解、代码实现以及时间复杂度分析

深入一致性哈希(Consistent Hashing)算法原理，并附100行代码实现【代码】【图】

PCB 挺有意思的基数排序----C#代码实现【代码】【图】

Apriori 关联分析算法原理分析与代码实现【代码】【图】

几种简单的负载均衡算法及其Java代码实现【代码】

PHP四种基本排序算法的代码实现

基于PHP代码实现中奖概率算法可用于刮刮卡、大转盘等抽奖算法，_PHP教程

PHP四种基本排序算法的代码实现(2)

基于PHP代码实现中奖概率算法可用于刮刮卡、大转盘等抽奖算法_php实例

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程