KMeans算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了KMeans算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1445字，纯文字阅读大概需要3分钟。

内容图文

1. $k$均值算法原理

给定一个数据集$D=\{x_1,x_2,...,x_m\}$，$k$均值算法针对聚类所得划分$C=\{C_1,C_2,...,C_K\}$最小化平方误差

\[ E = \sum_{i=1}^{k}\sum_{x\in{C_i}} \begin{Vmatrix} {x-\mu_i} \end{Vmatrix}_2^2 \]

其中，$\mu_i=\frac{1}{\mid{C_i}\mid}\sum_{x\in{C_i}}x$是簇$C_i$的均值向量。刻画了簇内样本围绕簇均值向量的紧密程度，$E$值越小则簇内样本相似度越高。

2. 算法伪代码

输入数据集$D$；
确定聚类簇数$k$；
从数据集中选择$k$个样本作为初始聚类中心；
根据距离最小原则，将每个数据分配个相应的簇心；
计算平方误差
更新每个簇的簇心；
停止条件：平方误差不再变化. 否则，重复4，5，6.

3. 算法代码实现

        clc
clear 
%% input data
load two_cluster.txt

%% 数据预处理
target = two_cluster(:, 1);
data = two_cluster(:, [2,3]);
%% 原始数据分布可视化
figure
scatter(data(:,1), data(:,2));
%% parameters setting
k = 2; % 类别数目
N_iter = 1000; % 最大迭代次数
expose = true;
errors = zeros(k, 1);
%% 初始化聚类中心
n = length(target);
loc = randperm(n); % 打乱数据序列

centroids = data([loc(1),loc(2)],:); % 随机选取2个簇心
%% main
labels = zeros(n, 1);
for it=1:N_iter
    %% classifation and label
    for i=1:n
        dists = sqrt(sum((data(i,:) - centroids).^2, 2)); % 计算距离
        [distMin, idx] = min(dists); % 寻找距离每个簇心的最小距离
        labels(i,:) = idx;
    end
    for j=1:2
       %% calculation erros
        errors(j, :) = sum(sqrt(sum((data((j==labels), :) - centroids(j, :)).^2, 2)),1);
    end
    %% ouput
    if expose
        disp(sum(errors));
    end
    for j=1:2
       %% update centers
        centroids(j,:) = mean(data((j==labels),:),1);
    end
end
%% 聚类后的数据可视化
figure
scatter(data((labels==1),1),data((labels==1),2), ‘r*‘);
hold on
scatter(data((labels==2),1),data((labels==2),2), ‘ko‘);

原文：https://www.cnblogs.com/mysterygust/p/14837258.html

内容总结

以上是互联网集市为您收集整理的KMeans算法全部内容，希望文章能够帮你解决KMeans算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1193991.html

来源：【匿名】

【上一篇】八大排序算法的java实现【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【KMeans算法】教程文章相关的互联网学习教程文章

1. $k$均值算法原理给定一个数据集$D=\{x_1,x_2,...,x_m\}$，$k$均值算法针对聚类所得划分$C=\{C_1,C_2,...,C_K\}$最小化平方误差\[ E = \sum_{i=1}^{k}\sum_{x\in{C_i}}\begin{Vmatrix}{x-\mu_i}\end{Vmatrix}_2^2 \]其中，$\mu_i=\frac{1}{\mid{C_i}\mid}\sum_{x\in{C_i}}x$是簇$C_i$的均值向量。刻画了簇内样本围绕簇均值向量的紧密程度，$E$值越小则簇内样本相似度越高。2. 算法伪代码输入数据集$D$；确定聚类...

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

一、环境：Python 3.7.4Pycharm Community 2019.3二、问题：对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。三、理论推导　此处依照我个人理解所写，错误之处欢迎指出 K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值选取聚类中心：　　聚类中心的选取可以选择随机选取、人工选取。K-means+...

初学Mahout测试kmeans算法

预备工作：启动hadoop集群准备数据Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data在集群中创建 /user/root/testdata 目录，必须是这个目录，不能改变，若是改变的话，得对应的去改变源码。将准备好的数据上传到集群的/user/root/testdata下。预备工作结束。正式测试：运行：[hadoop001@hadoop001 apache-mahout-distribution-0.12.2]$ hadoop jar mahout...

Kmeans算法学习与SparkMlLib Kmeans算法尝试【代码】【图】

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个...

【CUDA并行编程之八】Cuda实现Kmeans算法【图】

本文主要介绍如何使用CUDA并行计算框架编程实现机器学习中的Kmeans算法，Kmeans算法的详细介绍在这里，本文重点在并行实现的过程。当然还是简单的回顾一下kmeans算法的串行过程：伪代码：创建k个点作为起始质心(经常是随机选择) 当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇，计算簇中所有点的均值并将均值作为质心我们可以观察到有两个部...

mahout下的Hadoop平台上的Kmeans算法实现【图】

Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。首先，下载Hadoop和Mahout。因为Mahout有很多实现是运行在Hadoop上的，所以要先安装Hadoop。具体怎么安装？简单地说一下：1. 先安装SSH。ufw disable 关闭防火墙 cd .ssh/ 进入ssh文件夹，没有的话，下面生产密钥的时候自动生成ssh-keygen -t rsa 生成ssh密钥cp id_rsa.pub authorized_keys 复制多一份ssh localhost 测试是否联...

Python实现的Kmeans++算法实例

1、从Kmeans说起 Kmeans是一个非常基础的聚类算法，使用了迭代的思想，关于其原理这里不说了。下面说一下如何在matlab中使用kmeans算法。创建7个二维的数据点：代码如下:x=[randn(3,2)*.4;randn(4,2)*.5+ones(4,1)*[4 4]];使用kmeans函数：代码如下:class = kmeans(x, 2);x是数据点，x的每一行代表一个数据；2指定要有2个中心点，也就是聚类结果要有2个簇。 class将是一个具有70个元素的列向量，这些元素依次对应70个数据点，元...

机器学习-KMeans算法【代码】【图】

线性回归算法是一种有监督的算法。聚类是一种无监督的机器学习任务，他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么，所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程随机找K个样本(中心点) 计算空间中所有的样本与这K个样本的距离统计每一个样本与K个样本的距离大小，距离哪一个样本最近，那么这个样本就属于哪一类。以上...

KMeans 算法【代码】【图】

K-means算法简述K-means算法，也称为K-平均或者K-均值，一般作为掌握聚类算法的第一个算法。这里的K为常数，需事先设定，通俗地说该算法是将没有标注的 M 个样本通过迭代的方式聚集成K个簇。在对样本进行聚集的过程往往是以样本之间的距离作为指标来划分。简单Demo说明如上图以 K 为2，样本集为M 来描述KMean算法，算法执行步骤如下：选取K个点做为初始聚集的簇心（也可选择非样本点）; 分别计算每个样本点到 K个簇核心的距离（这...

kmeans算法【代码】

原理以k为参数，把n个对象分成k个簇，使簇内具有较高的相似性，而簇间的相似度较低。处理过程：随机选择k个点作为初始的聚类中心对于剩下的点，根据其与聚类中心的距离（如欧式距离等），将其归入最近的簇对每个簇，计算所有点的均值作为新的聚类中心重复2、3直到聚类中心不再发生改变实战 31省市居民家庭消费调查 import numpy as np from sklearn.cluster import KMeans# 31个城市，每个城市8项数据 def loadData(filePath):f...

数学建模模型6——Kmeans算法【数据型】【代码】【图】

K-meansK-means算法简述K-means算法思考常用的几种距离计算方法KMean算法的算法优缺点与适用场景优点缺点代码2D数据3D数据 K-means算法简述K-means算法，也称为K-平均或者K-均值，一般作为掌握聚类算法的第一个算法。这里的K为常数，需事先设定，通俗地说该算法是将没有标注的 M 个样本通过迭代的方式聚集成K个簇。在对样本进行聚集的过程往往是以样本之间的距离作为指标来划分。简单Demo说明如上图以 K 为2，样本集为M 来描述KM...

Kmeans算法【图】

1.Kmeans算法 1.1算法思想 kmeans算法又名k均值算法，是一个重复移动类中心点的过程，把类的中心点，也称重心(centroids)，移动到其包含成员的平均位置，然后重新划分其内部成员。k是算法计算出的超参数，表示类的数量；Kmeans可以自动分配样本到不同的类，但是不能决定究竟要分几个类。k必须是一个比训练集样本数小的正整数。有时，类的数量是由问题内容指定的。其算法思想总结为：先从样本集中随机选取 k 个样本作为簇中心，并...

KMeans算法——python实现【代码】【图】

KMeans介绍最基础的，常用的机器学习算法 k均值聚类算法是一种迭代求解的聚类分析算法。聚类是无监督学习，将相似的对象归到一簇中，簇的对象越相似，效果越好。优点原理简单，容易实现缺点需要对K值进行指定，对初始的中心点选取较为敏感，初始的中心点影响了分类的结果算法推导本例子采用欧式距离算法，即两点之间的直线距离用户需要对k值进行指定，k代表簇的个数传入需要处理的数据，数据可以是任意维度的，个数可以是...

python3实现Kmeans++算法【代码】【图】

零：环境 python 3.6.5 JetBrains PyCharm 2018.1.4 x64 一：KMeans算法大致思路KMeans算法是机器学习中的一种无监督聚类算法，是针对不具有类型的数据进行分类的一种算法形象的来说可以说成是给定一组点data，给定要分类的簇数k，来求中心点和对应的簇的集合中心点所在的簇中的其他点都是距离该中心点最近的点，因而才在一个簇里具体步骤1、首先在点集中随机寻找k个点来当作中心点2、然后初始化k个集合，用于存放对应的簇的对象3、...

聚类kmeans算法在yolov3中的应用【代码】

yolov3 kmeans yolov3在做boundingbox预测的时候,用到了anchor boxes.这个anchors的含义即最有可能的object的width,height.事先通过聚类得到.比如某一个像素单元,我想对这个像素单元预测出一个object,围绕这个像素单元,可以预测出无数种object的形状,并不是随便预测的,要参考anchor box的大小,即从已标注的数据中通过聚类统计到的最有可能的object的形状. .cfg文件内的配置如下: [yolo] mask = 3,4,5 anchors = 10,14, 23,27, 37...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / KMeans算法

KMeans算法

内容导读

内容图文

1. \(k\)均值算法原理

2. 算法伪代码

3. 算法代码实现

内容总结

内容备注

内容手机端

【KMeans算法】教程文章相关的互联网学习教程文章

KMeans算法【代码】

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

初学Mahout测试kmeans算法

Kmeans算法学习与SparkMlLib Kmeans算法尝试【代码】【图】

【CUDA并行编程之八】Cuda实现Kmeans算法【图】

mahout下的Hadoop平台上的Kmeans算法实现【图】

Python实现的Kmeans++算法实例

机器学习-KMeans算法【代码】【图】

KMeans 算法【代码】【图】

kmeans算法【代码】

数学建模模型6——Kmeans算法【数据型】【代码】【图】

Kmeans算法【图】

KMeans算法——python实现【代码】【图】

python3实现Kmeans++算法【代码】【图】

聚类kmeans算法在yolov3中的应用【代码】

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程