Kmeans聚类算法原理与实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Kmeans聚类算法原理与实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3299字，纯文字阅读大概需要5分钟。

内容图文

Kmeans聚类算法

1 Kmeans聚类算法的基本原理

K-means 算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。 K-means 算法的基本思想是：以空间中 k 个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

假设要把样本集分为 k 个类别，算法描述如下：

　　（ 1 ）适当选择 k 个类的初始中心，最初一般为随机选取；

　　（ 2 ）在每次迭代中，对任意一个样本，分别求其到 k 个中心的欧式距离，将该样本归到距离最短的中心所在的类；

　　（ 3 ）利用均值方法更新该 k 个类的中心的值；

　　（ 4 ）对于所有的 k 个聚类中心，重复（ 2 ）（ 3 ），类的中心值的移动距离满足一定条件时，则迭代结束，完成分类。

Kmeans 聚类算法原理简单，效果也依赖于 k 值和类中初始点的选择。

2 算法结构与实现方法

Kmeans 算法相对比较简单，本次算法实现采用 C++ 语言，作为面向对象设计语言，为保证其良好的封装性以及代码重用性。软件包含三个部分，即 kmeans.h ， kmeans.cpp 和 main.cpp 。

在 kmeans.h 中，首先定义一个类， class KMeans ，由于本算法实现需要对外部数据进行读取和存储，一次定义了一个容器 Vector ，其中数据类型为结构体 st_point ，包含三维点坐标以及一个 char 型的所属类的 ID 。其次为函数的声明。

技术分享图 4.1 程序基本机构与对应函数

在 kmeans.cpp 中具体给出了不同功能的公有函数，如图 _1 中所示，函数比较细化，便于后期应用的扩展，比较具体是聚类函数： cluster ，其中严格根据 kmeans 基本原理，聚类的相似度选用的是最简单的欧式距离，而迭代的结束判定条件选用两次中心值之间的偏差是否大于给定 Dist_near_zero 值。具体参见程序源代码。

3 数据描述

本次算法实验采用数据为三维点云数据，类似于实验室中三维激光扫描仪器所采得数据，形式上更为简单，整齐有规律，在 cloudcompare 中显示出来，如下图：

技术分享

图 4.2 数据原始图

数据为三维坐标系下的三个点云集，分别为球体，园面以及正方体，而 test.txt 文件中是一组三维的点集，是混乱的，聚类算法要做的便是将其中分类存储起来。很自然的，聚类中 K 值选择了 3 。

在软件实现时，建立了一个含有结构体类型的容器，对原始数据进行读取。

typedef struct st_point

{ st_pointxyz pnt; //st_pointxyz 为三维点结构类型数据 stru st_pointxyz

int groupID;

st_point () { }

st_point(st_pointxyz &p, int id)

{pnt = p;

groupID = id;

}

}st_point;

该数据结构类型中包含三维点数据以及所分类的 ID ，数据容器为 vector<st_point> 。

4 算法描述与源码分析

本节重点分析项目中 culster 聚类函数的具体代码，由于 C++ 语言较适用于大型程序编写，本算法又相对简单，因此未免冗长，具体完整程序见项目源程序。下面只分析 Kmeans 原理中（ 2 ）（ 3 ）步骤的程序实现。

如下面程序源代码：

             1
            bool
             KMeans::Cluster()

             2
            {

             3     std::vector<st_pointxyz> v_center(mv_center.size());
 4 5do 6    {
 7for (int i = 0, pntCount = mv_pntcloud.size(); i < pntCount; ++i)
 8        {
 9double min_dist = DBL_MAX;
10int pnt_grp = 0;
11for (int j = 0; j < m_k; ++j)
12            {
13double dist = DistBetweenPoints(mv_pntcloud[i].pnt, mv_center[j]);
14if (min_dist - dist > 0.000001)
15                {
16                     min_dist = dist;
17                     pnt_grp = j;
18                }
19            }
20            m_grp_pntcloud[pnt_grp].push_back(st_point(mv_pntcloud[i].pnt, pnt_grp));
21        }
2223//保存上一次迭代的中心点24for (size_t i = 0; i < mv_center.size(); ++i)
25        {
26             v_center[i] = mv_center[i];
27        }
2829if (!UpdateGroupCenter(m_grp_pntcloud, mv_center))
30        {
31returnfalse;
32        }
33if (!ExistCenterShift(v_center, mv_center))
34        {
35break;
36        }
37for (int i = 0; i < m_k; ++i){
38            m_grp_pntcloud[i].clear();
39        }
4041     } while (true);
4243returntrue;
44 }

5 算法结果分析

原数据文件 test.txt 中的数据被分为三类，分别存储在文件 k_1 ， k_2 ， k_3 中，我们对三个聚类后所得数据点云进行颜色添加后显示在 cloudcompare 上，得下面的显示图：

技术分享

图 4.3 Kmeans 聚类结果

上图是在给定的初始三个聚类中心点为 { 0, 0, 0 } ， { 2.5, 2.5, 2.5 } ， { 3, 3, -3 } 的情况下得到的结果。这是比较理想的，再看下图：

技术分享

图 4.4 改变初始聚类中心后的结果

本结果对应的初始三个中心点为 { 2, 2, 2 } ， { -2.5, 2.5, 2.5 } ， { 3, -3, -3 } ，很明显，数据聚类并不理想，这说明 K-Means 算法一定程度上初始聚类种子点，这个聚类种子点太重要，不同的随机种子点会有得到完全不同的结果。

上面改动了初始点，下面给出当 k=4 的聚类结果，分别取了两组不同的初始点集：

技术分享

图 4.5.1 k=4 聚类结果 1

技术分享

图 4.5.2 k=4 聚类结果

由上述聚类结果可知，当 k 增加时，选取聚类初始点合适，可以得到满意的结果，如 5_1 所示，与最初结果相比只是将球点云聚类成了两部分，而 5_2 与 5_1 相比结果很不理想，由颜色可以看出，图中只有两类，另外两类是空的，说明 k 值不当，初始值不当的情况下，聚类是会失败的。

综上实验结果分析可以看出， kmeans 聚类算法是一类非常快捷的聚类算法，效果也很明显，局部性较好，容易并行化，对大规模数据集很有意义。但比较依赖于 k 值得选定与初始聚类中心点的选择，所以该算法比较适合有人工参与的较大型聚类场合。

工程源码：http://pan.baidu.com/s/1ntN6Pjb

Kmeans聚类算法 - 开源中国社区 http://www.oschina.net/code/snippet_588162_50491

参考文献

[1] Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Applied statistics, 1979: 100-108.

原文：http://www.cnblogs.com/star91/p/4761781.html

内容总结

以上是互联网集市为您收集整理的Kmeans聚类算法原理与实现全部内容，希望文章能够帮你解决Kmeans聚类算法原理与实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1301493.html

来源：【匿名】

【上一篇】[算法]回文检测【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【Kmeans聚类算法原理与实现】教程文章相关的互联网学习教程文章

Kmeans聚类算法1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为k个类别，算法描述如下：　　（1）适当选择k个类的初始中心，最初一般为随机选取；　　（2）在每次迭代中，对任意一个样本，分别求其到k个...

第七篇：Logistic回归分类算法原理分析与代码实现【代码】【图】

前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码，Python代码实现。 (说明：从本文开始，将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数，以用于分类。)算法原理首先要提到的概念是回归。对于回归这个概念，在以后的文章会有系统而深入的学习。简单的说，回归就是用一条线对N多数据点进行一个拟合，这个拟合的过程就叫做回归。 Logistic...

PS 滤镜算法原理——浮雕效果【图】

clc;clear all;Image=imread(‘4.jpg‘); Image=double(Image); R=Image(:,:,1); G=Image(:,:,2); B=Image(:,:,3); p=3; %% 控制浮雕的强度%% 控制浮雕的方向 H=[0 0 p 0 0 0 -p 0 0]; Image_new=imfilter(Image,H,‘conv‘)+128; figure, imshow(Image_new/255);原图效果图原文：http://blog.csdn.net/matrix_space/article/details/29193433

机器学习算法原理与编程实践之朴素贝叶斯分类【图】

在介绍朴素贝叶斯分类之前，首先介绍一下大家都比较了解的贝叶斯定理，即已知某条件概率，如何得到两个时间交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)？可以通过如下公式求得：而朴素贝叶斯分类是一种简单的分类算法，称其朴素是因为其思想基础的简单性：就文本分类而言，它认为词袋中的两两词之间的关系是相互独立的，即一个对象的特征向量中的每个维度都是相互独立。朴素贝叶斯分类的正式定义如下：（1）设为一个待...

SHA1算法原理

一．SHA1与MD5差异SHA1对任意长度明文的预处理和MD5的过程是一样的，即预处理完后的明文长度是512位的整数倍，但是有一点不同，那就是SHA1的原始报文长度不能超过2的64次方，然后SHA1生成160位的报文摘要。SHA1算法简单而且紧凑，容易在计算机上实现。表8-2-1列出了对MD5及SHA1的比较差异之处。让我们根据各项特性，简要说明其间的不同。表8-2-1 MD5与SHA1的比较差异处MD5SHA1摘要长度128位160位运算步骤数6480基本逻辑函数数目44...

中文转换为完整拼音算法原理分析

最近由于项目需要，对简体中文转拼音的算法作了一些了解，然而在google找到的大多是获得简体中文拼音首字母的算法，好不容易让我找到了一个sunrise.spell的类，专门用于中文转完整拼音，觉得的确做得不错，于是对它的算法作了一些分析，总的来说觉得还是比较简单的，拿出来与大家分享。我们先来学习一些准备知识。GB2312编码对于我们中国人是再熟悉不过了，我先简单的分析一下它的编码规则。GB2312编码包括符号、数字、字母...

K-means算法原理与R语言实例【图】

聚类是将相似对象归到同一个簇中的方法，这有点像全自动分类。簇内的对象越相似，聚类的效果越好。支持向量机、神经网络所讨论的分类问题都是有监督的学习方式，现在我们所介绍的聚类则是无监督的。其中，K均值（K-means）是最基本、最简单的聚类算法。在K均值算法中，质心是定义聚类原型（也就是机器学习获得的结果）的核心。在介绍算法实施的具体过程中，我们将演示质心的计算方法。而且你将看到除了第一次的质心是被指定的以外，...

数据加密--详解 RSA加密算法原理与实现【代码】【图】

RSA算法简介RSA是最流行的非对称加密算法之一。也被称为公钥加密。它是由罗纳德·李维斯特（Ron Rivest）、阿迪·萨莫尔（Adi Shamir）和伦纳德·阿德曼（Leonard Adleman）在1977年一起提出的。当时他们三人都在麻省理工学院工作。RSA就是他们三人姓氏开头字母拼在一起组成的。RSA是非对称的，也就是用来加密的密钥和用来解密的密钥不是同一个。和DES一样的是，RSA也是分组加密算法，不同的是分组大小可以根据密钥的大小而改变。如果...

数据挖掘之clara算法原理及实例(代码中有bug)

继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法本文将继续介绍第二种基于划分思想的k-mediod算法-----clara算法clara算法能够说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.clara(clustering large application)算法是应用于大规模数据的聚类.而其核心算法还是利用k-mediod算法.仅仅是这样的算法弥补了k-mediod算法仅仅能应用于小规模数据的缺陷.clara算法的核心是,先对大规模数据进行...

rsync算法原理【代码】【图】

在开始分析算法原理之前，简单说明下rsync的增量传输功能。假设待传输文件为A，如果目标路径下没有文件A，则rsync会直接传输文件A，如果目标路径下已存在文件A，则发送端视情况决定是否要传输文件A。rsync默认使用"quick check"算法，它会比较源文件和目标文件(如果存在)的文件大小和修改时间mtime，如果两端文件的大小或mtime不同，则发送端会传输该文件，否则将忽略该文件。如果"quick check"算法决定了要传输文件A，它不会传输...

数据结构-排序算法原理和Python实现【代码】【图】

排序算法概览插入排序基本思想是每次讲一个待排序的记录，按其关键字大小插入到前面已拍好的子序列中，直到全部完成。直接插入排序讲元素L(i)插入到有序序列L[1,…,i-1]中，执行以下操作： 1. 查找出L(i)在L[1,…,i-1]中的插入位置k。 2. 将L[k,…,i-1]中所有元素全部后移一位。 3. 将L(i)复制到L(k)def InsertSort(array_a, n):for i in range(1, n):temp = array_a[i]j = i - 1while temp < array_a[j] and j >= 0:array_a[j + 1...

【转载】分布式系列文章——Paxos算法原理与推导

转载：http://linbingdong.com/2017/04/17/%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E5%88%97%E6%96%87%E7%AB%A0%E2%80%94%E2%80%94Paxos%E7%AE%97%E6%B3%95%E5%8E%9F%E7%90%86%E4%B8%8E%E6%8E%A8%E5%AF%BC/Paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点：1.难以理解 2.工程实现更难。网上有很多讲解Paxos算法的文章，但是质量参差不齐。看了很多关于Paxos的资料后发现，学习Paxos最好的资料是论文《...

郑捷《机器学习算法原理与编程实践》学习笔记（第四章推荐系统原理）（二）kmeans【代码】

（上接第二章）　　4.3.1 KMeans 算法流程　　算法的过程如下：　　（1）从N个数据文档随机选取K个文档作为质心　　（2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类　　（3）重新计算已经得到的各个类的质心　　（4）迭代（2）~（3）步直至新的质心与原质心相等或者小于指定阀值，算法结束。　　4.3.2 辅助函数　　（1）文件数据转为矩阵：file2matrixdef file2matrix(path,delimiter):recordlist = []fp ...

Redis源码中探秘SHA-1算法原理及其编程实现【代码】

导读 SHA-1算法是第一代“安全散列算法”的缩写，其本质就是一个Hash算法。SHA系列标准主要用于数字签名，生成消息摘要，曾被认为是MD5算法的后继者。如今SHA家族已经出现了5个算法。Redis使用的是SHA-1，它能将一个最大2^64比特的消息，转换成一串160位的消息摘要，并能保证任何两组不同的消息产生的消息摘要是不同的。虽然SHA1于早年间也传出了破解之道，但作为SHA家族的第一代算法，对我们仍然很具有学习价值和指导意义。...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / Kmeans聚类算法原理与实现

Kmeans聚类算法原理与实现

内容导读

内容图文

Kmeans聚类算法

1 Kmeans聚类算法的基本原理

2 算法结构与实现方法

3 数据描述

4 算法描述与源码分析

5 算法结果分析

参考文献

内容总结

内容备注

内容手机端

【Kmeans聚类算法原理与实现】教程文章相关的互联网学习教程文章