KMeans算法——python实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了KMeans算法——python实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3857字，纯文字阅读大概需要6分钟。

内容图文

KMeans介绍

最基础的，常用的机器学习算法
k均值聚类算法是一种迭代求解的聚类分析算法。
聚类是无监督学习，将相似的对象归到一簇中，簇的对象越相似，效果越好。

优点

原理简单，容易实现

缺点

需要对K值进行指定，对初始的中心点选取较为敏感，初始的中心点影响了分类的结果

算法推导

本例子采用欧式距离算法，即两点之间的直线距离

用户需要对k值进行指定，k代表簇的个数
传入需要处理的数据，数据可以是任意维度的，个数可以是不确定的

对传入的数据随机选取k个作为中心点
遍历数据，把每个数据与中心点进行计算，把它归类为与之距离最近的点

计算每一类点的平均值，算出新的中心点
计算新的中心点与旧的中心点的平均距离，看平均距离是否符合误差范围，
符合就输出结果，不符合，就继续遍历

代码实现

import random
import copy
import matplotlib.pyplot as plt
class KMeans():
    def __init__(self,data,k=1):
        self.__data = data  # 存放输入点数据
        self.__k = k  # 中心点个数
        self.__centerPoint = []  # 中心点
        self.__result = []  # 对输入点进行分类的结果
        for i in range(k):
            self.__result.append([])   #[[] [] [] [] [] ]

    # 随机取k个中心点
    def randomCenterPoint(self):
        for i in range(self.__k):
            # 随机出k个下标
            index = random.randint(0,len(self.__data)-1)
            # 判断取出的数是否在中心点中  防止取重复数  使中心点重复
            if self.__data[index] not in self.__centerPoint:
                self.__centerPoint.append(self.__data[index])
        pass

    # 把数据进行分类 计算各点到中心点的距离
    # data为点数据
    # center为中心点
    def calCenterPointDistance(self, data, center):
        centerDistance = []  # 用来记录每个点到k个中心点的距离[[k个数][k个数][k个数][k个数]...]长度为len(data)
        # 计算并存储各点到中心点距离
        for temp in data:
            centerDistance.append([self.distance(temp,point) for point in center])
            pass

        self.__result = []
        # 因为对result进行的使append操作 及时清空 否则数据会堆积 越来越多
        # 对result清空操作
        for i in range(self.__k):
            self.__result.append([])
        m = 0
        # 根据各点到中心点距离  把数据点进行分类
        for temp in centerDistance:
            index = temp.index(min(temp))
            self.__result[index].append(copy.deepcopy(data[m]))
            m += 1

    # 计算两点之间的距离  任何维度都可以
    def distance(self,pointA,pointB):
        distance = (sum([(x - y)**2 for x,y in zip(pointA,pointB)]))**0.5
        return distance
        pass

    # 计算生成新的中心点
    def newCenterPoint(self, result):
        newCenterPoint = []  # 存放新的中心点
        # 转置矩阵  把各点x，y ,z...放在同一数组 方便计算
        for temp in result:
            temps = [[x[i] for x in temp]for i in range(len(temp[0]))]
            point = []  # 存放新中心点的x,y,z.... 临时变量
            for t in temps:
                point.append(sum(t)/len(t))
            newCenterPoint.append(copy.deepcopy(point))
        return newCenterPoint

    #  计算新旧中心点之间的距离
    #  old代表原来的中心点列表  new新生成的中心点列表
    def calCenterPointToCenterPointDistance(self, old, new):
        total = 0
        for point1, point2 in zip(old, new):
            total += self.distance(point1, point2)
        # 返回新旧点的误差值
        return total/len(old)  # new也行
        pass

    # 执行函数
    def fit(self, threshold):
        self.randomCenterPoint() # 随机中心点
        self.calCenterPointDistance(self.__data, self.__centerPoint)  # 把数据根据中心点分类
        newCenterPoint = self.newCenterPoint(self.__result)  # 生成新的中心点
        oldCenterPoint = self.__centerPoint  # 旧的中心点
        # 程序结束的条件
        while self.calCenterPointToCenterPointDistance(oldCenterPoint,newCenterPoint) > threshold:
            self.calCenterPointDistance(self.__data, newCenterPoint)  # 对data点数据进行新的分类
            oldCenterPoint = newCenterPoint  # 覆盖旧点
            newCenterPoint = self.newCenterPoint(self.__result)  # 生成新点

        self.__centerPoint = newCenterPoint
        return newCenterPoint, self.__result

if __name__ == "__main__":
    #  生成x个随机点
    data = [[random.randint(1, 100), random.randint(1, 100)]for i in range(1000)]
    km = KMeans(data, 6)
    center,result = km.fit(0.0001)

    # 数据可视化 可清楚看见点的分布情况
    plt.plot()
    plt.title("KMeans Classification")
    i = 0
    tempx = []
    tempy = []
    color = []
    for temp in result:
        temps = [[temp[x][i] for x in range(len(temp))] for i in range(len(temp[0]))]
        color += [i] * len(temps[0])
        tempx += temps[0]
        tempy += temps[1]
        i += 2
        pass
    plt.scatter(tempx, tempy, c=color, s=30)
    plt.show()

结果图

相同的数据每次运行分类结果也不同 KMeans算法——python实现 - 文章图片

内容总结

以上是互联网集市为您收集整理的KMeans算法——python实现全部内容，希望文章能够帮你解决KMeans算法——python实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/737525.html

来源：【匿名】

【上一篇】VLAD算法浅析, BOF、FV比较【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【KMeans算法——python实现】教程文章相关的互联网学习教程文章

原文地址本文内容前言线程池意义线程池技术要点小节参考源码但凡是一个框架，基本都会涉及线程池问题。虽然你可能没有直接使用，那是因为框架帮你完成了这部分工作。说，为什么需要线程池呢？试想，现在但凡是写一个服务程序，如果不采用并发或并行的方式，都有点对不起4核、8核，甚至更多的CPU内核，但是如果每次需要线程，都创建一次，这对性能的消耗，比较大，更加合适的做法是，在程序初始化时，一次性把所有线程都创建好，这样...

《基于遗传算法的自动组卷系统设计与实现》17【图】

一、基本信息标题：《基于遗传算法的自动组卷系统设计与实现》时间：2016来源：西北农林科技大学关键字：自动组卷；遗传算法；早熟；收敛二、研究内容问题定义：针对传统的组卷算法组卷速度慢、成功率较低、试卷质量不高的问题，本文提出结合BP算法对遗传算法中遗传因子进行学习训练，提高染色体的适应度，采用目标试卷的题数进行实数编码替代传统的二进制编码方式，对染色体长度进行优化，解决传统遗传算法出现早熟、收敛慢的现象...

算法：comparable比较器的排序原理实现(二叉树中序排序)【代码】

Comparable比较器排序远离实现package test.java.api.api13;/*** 手工实现二叉树的比较算法：第一遍感觉很神秘，但是真正自己写下来，就感觉很简单，理解就好：主要一下两点：第一点：【设置一个根节点】* 第二点：新增节点处理：比根节点小，放在左子树（如果左子树不存在，直接放在左子树，如果存在，用已经存在的左子树的节点递归调用）* 第三点：新增节点处理：比根节点大或等于，放在右子树（如果右子树不存在，直接放在右...

python实现排序算法【代码】

def insert_sort(ilist):for i in range(len(ilist)):for j in range(i):if ilist[i] < ilist[j]:ilist.insert(j,ilist.pop(i))breakreturn ilistilist = insert_sort([2,3,4,5,6,4,33,2]) print(ilist)插入排序算法 def bubble_sort(blist):count = len(blist)for i in range(0, count):for j in range(i + 1, count):if blist[i] > blist[j]:blist[i], blist[j] = blist[j], blist[i]return blistblist = bubble_sort([4,5,6,7,3...

第15个算法-实现 Trie (前缀树)（LeetCode）【代码】

解法代码来源：https://blog.csdn.net/whdAlive/article/details/81084793算法来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/implement-trie-prefix-tree 实现一个 Trie (前缀树)，包含 insert, search, 和 startsWith 这三个操作。示例:Trie trie = new Trie();trie.insert("apple"); trie.search("apple"); // 返回 true trie.search("app"); // 返回 false trie.startsWith("app"); // 返回 true trie...

hilditch图像细化算法python实现【代码】【图】

import cv2 import numpy as np import matplotlib.pyplot as plt# hilditch thining def hilditch(img):# get shapeH, W, C = img.shape# prepare out imageout = np.zeros((H, W), dtype=np.int)out[img[..., 0] > 0] = 1# inverse pixel valuetmp = out.copy()_tmp = 1 - tmpcount = 1while count > 0:count = 0tmp = out.copy()_tmp = 1 - tmptmp2 = out.copy()_tmp2 = 1 - tmp2# each pixelfor y in range(H):for x in range(...

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用【代码】【图】

import numpy as np x=np.random.randint(1,100,[20,1]) #在1-100范围中产生20行1列的随机数组 y=np.zeros(20) k=3 #取数据中k个对象为初始中心,每个对象代表一个聚类中心 def initcenter(x,k): return x[:k] kc=initcenter(x,k) kc#对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心（最相似）所对应的类； def nearest(kc,i): #数组中的值，与...

算法(第四版)学习笔记之java实现栈和队列(链表实现)

下压堆栈(链表实现)：import java.util.Iterator;public class LinkedStack<Item> implements Iterable<Item> {public class Node{Item item;Node next;}private Node frist;private int N = 0;public boolean isEmpty(){return N == 0;}public int size(){return N;}public void push(Item item){Node oldFrist = frist;frist = new Node();frist.next = oldFrist;frist.item = item;N++;}public Item pop(){Item item = frist.it...

python数据结构与算法——图的基本实现及迭代器【代码】【图】

本文参考自《复杂性思考》一书的第二章，并给出这一章节里我的习题解答。（这书不到120页纸，要卖50块！！，一开始以为很厚的样子，拿回来一看，尼玛。。。。。代码很少，给点提示，然后让读者自己思考怎么实现）先定义顶点和边 1class Vertex(object):2def__init__(self, label=‘‘):3 self.label = label4def__repr__(self):5return‘Vertex(%s)‘ % repr(self.label)6# __repr__返回表达式， __str__返回可阅读信息 7...

算法：用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。《剑指offer》【代码】

算法：用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。《剑指offer》利用栈来进行操作，代码注释写的比较清楚：首先判断两个栈是否是空的：其次当栈二为空，将栈1中取出来放到栈二，最终返回栈二首部值；主要利用了pop（）方法和push方法：package LG.nowcoder;/*** @Author liguo* @Description 用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。* @Data 2018-08-11 21:5...

【算法】实现栈和队列【代码】【图】

栈（stack）栈（stack）是一种后进先出（LIFO）的集合类型，即后来添加的数据会先被删除可以将其类比于下面文件的取放操作：新到的文件会被先取走，这使得每次取走的文件都是最新的。栈可以用数组或者队列去实现下面要实现的栈的API如下图所示：用数组实现栈下面我们通过数组实现一个指定了初始容量，但随着元素的增加能够动态地扩张容量的栈。注意：因为数组指定大小后不可改变，所以我们要定义自动扩大栈容量的操作pub...

不会全排列算法(Javascript实现)，我教你呀！【图】

今天我很郁闷，在实验室凑合睡了一晚，准备白天大干一场，结果一整天就只做出了一道算法题。看来还是经验不足呀，同志仍需努力呀。算法题目要求是这样的：Return the number of total permutations of the provided string that don‘t have repeated consecutive letters. Assume that all characters in the provided string are each unique.For example, aab should return 2 because it has 6 total permutations (aab, aab, ...

[算法]各种排序算法的C++实现【代码】【图】

我们通常所说的排序算法往往指的是内部排序算法，即数据记录在内存中进行排序。　　排序算法大体可分为两种：　　　　一种是比较排序，时间复杂度O(nlogn) ~ O(n^2)，主要有：冒泡排序，选择排序，插入排序，归并排序，堆排序，快速排序等。　　　　另一种是非比较排序，时间复杂度可以达到O(n)，主要有：计数排序，基数排序，桶排序等。下表给出了常见比较排序算法的性能：为了便于以下描述，接下来全部算法的排序对象均为乱序数...

Redis源码中探秘SHA-1算法原理及其编程实现【代码】

导读 SHA-1算法是第一代“安全散列算法”的缩写，其本质就是一个Hash算法。SHA系列标准主要用于数字签名，生成消息摘要，曾被认为是MD5算法的后继者。如今SHA家族已经出现了5个算法。Redis使用的是SHA-1，它能将一个最大2^64比特的消息，转换成一串160位的消息摘要，并能保证任何两组不同的消息产生的消息摘要是不同的。虽然SHA1于早年间也传出了破解之道，但作为SHA家族的第一代算法，对我们仍然很具有学习价值和指导意义。...

MD5算法实现【代码】

// 直接贴代码了，具体原理有很多地方都有描述，这里给出实现方便对比自己的算法到底什么地方错，算法是绝对没有问题的，计算大型文件MD5的效率还可以优化的。 struct IIStream { virtual size_t GetLength() = 0; virtual size_t Read(size_t size_,unsigned char * buff_out_) = 0; virtual bool Eof() = 0; virtual bool Valid() = 0; virtual void Release() = 0; };struct IOStream { virtual ...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / KMeans算法——python实现

KMeans算法——python实现

内容导读

内容图文

KMeans介绍

优点

缺点

算法推导

代码实现

结果图

内容总结

内容备注

内容手机端

【KMeans算法——python实现】教程文章相关的互联网学习教程文章

几种线程池的实现算法分析【转载】【图】

《基于遗传算法的自动组卷系统设计与实现》17【图】

算法：comparable比较器的排序原理实现(二叉树中序排序)【代码】

python实现排序算法【代码】

第15个算法-实现 Trie (前缀树)（LeetCode）【代码】

hilditch图像细化算法python实现【代码】【图】

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用【代码】【图】

算法(第四版)学习笔记之java实现栈和队列(链表实现)

python数据结构与算法——图的基本实现及迭代器【代码】【图】

算法：用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。《剑指offer》【代码】

【算法】实现栈和队列【代码】【图】

不会全排列算法(Javascript实现)，我教你呀！【图】

[算法]各种排序算法的C++实现【代码】【图】

Redis源码中探秘SHA-1算法原理及其编程实现【代码】

MD5算法实现【代码】

PYTHON - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程