Spark中的聚类算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark中的聚类算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3216字，纯文字阅读大概需要5分钟。

内容图文

Spark - Clustering

官方文档：https://spark.apache.org/docs/2.2.0/ml-clustering.html

这部分介绍MLlib中的聚类算法；

K-means：
- 输入列；
- 输出列；
Latent Dirichlet allocation(LDA)：
Bisecting k-means；
Gaussian Mixture Model(GMM)：
- 输入列；
- 输出列；

K-means

k-means是最常用的聚类算法之一，它将数据聚集到预先设定的N个簇中；

KMeans作为一个预测器，生成一个KMeansModel作为基本模型；

输入列

Param name	Type(s)	Default	Description
featuresCol	Vector	features	Feature vector

输出列

Param name	Type(s)	Default	Description
predictionCol	Int	prediction	Predicted cluster center

例子

        from pyspark.ml.clustering import KMeans

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

# Trains a k-means model.
kmeans = KMeans().setK(2).setSeed(1)
model = kmeans.fit(dataset)

# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(wssse))

# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)

LDA

LDA是一个预测器，同时支持EMLDAOptimizer和OnlineLDAOptimizer，生成一个LDAModel作为基本模型，专家使用者如果有需要可以将EMLDAOptimizer生成的LDAModel转为DistributedLDAModel；

        from pyspark.ml.clustering import LDA

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_lda_libsvm_data.txt")

# Trains a LDA model.
lda = LDA(k=10, maxIter=10)
model = lda.fit(dataset)

ll = model.logLikelihood(dataset)
lp = model.logPerplexity(dataset)
print("The lower bound on the log likelihood of the entire corpus: " + str(ll))
print("The upper bound on perplexity: " + str(lp))

# Describe topics.
topics = model.describeTopics(3)
print("The topics described by their top-weighted terms:")
topics.show(truncate=False)

# Shows the result
transformed = model.transform(dataset)
transformed.show(truncate=False)

Bisecting k-means

Bisecting k-means是一种使用分裂方法的层次聚类算法：所有数据点开始都处在一个簇中，递归的对数据进行划分直到簇的个数为指定个数为止；

Bisecting k-means一般比K-means要快，但是它会生成不一样的聚类结果；

BisectingKMeans是一个预测器，并生成BisectingKMeansModel作为基本模型；

与K-means相比，二分K-means的最终结果不依赖于初始簇心的选择，这也是为什么通常二分K-means与K-means结果往往不一样的原因；

        from pyspark.ml.clustering import BisectingKMeans

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

# Trains a bisecting k-means model.
bkm = BisectingKMeans().setK(2).setSeed(1)
model = bkm.fit(dataset)

# Evaluate clustering.
cost = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(cost))

# Shows the result.
print("Cluster Centers: ")
centers = model.clusterCenters()
for center in centers:
    print(center)

Gaussian Mixture Model(GMM)

GMM表示一个符合分布，从一个高斯子分布中提取点，每个点都有其自己的概率，spark.ml基于给定数据通过期望最大化算法来归纳最大似然模型实现算法；

输入列

Param name	Type(s)	Default	Description
featuresCol	Vector	features	Feature vector

输出列

Param name	Type(s)	Default	Description
predictionCol	Int	prediction	Predicted cluster center
probabilityCol	Vector	probability	Probability of each cluster

例子

        from pyspark.ml.clustering import GaussianMixture

# loads data
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

gmm = GaussianMixture().setK(2).setSeed(538009335)
model = gmm.fit(dataset)

print("Gaussians shown as a DataFrame: ")
model.gaussiansDF.show(truncate=False)

原文：https://www.cnblogs.com/helongBlog/p/13741248.html

内容总结

以上是互联网集市为您收集整理的Spark中的聚类算法全部内容，希望文章能够帮你解决Spark中的聚类算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1308771.html

来源：【匿名】

【上一篇】数据结构和算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【Spark中的聚类算法】教程文章相关的互联网学习教程文章

Spark - Clustering官方文档：https://spark.apache.org/docs/2.2.0/ml-clustering.html这部分介绍MLlib中的聚类算法；目录：K-means：输入列；输出列；Latent Dirichlet allocation(LDA)：Bisecting k-means；Gaussian Mixture Model(GMM)：输入列；输出列；K-meansk-means是最常用的聚类算法之一，它将数据聚集到预先设定的N个簇中；KMeans作为一个预测器，生成一个KMeansModel作为基本模型；输入列Param nameType(s)DefaultDe...

RRC聚类算法

(原创文章，转载请注明出处！)RRC（recursive rectangular clustering）的基本思想是通过递归的对包含所有样本点的局域进行矩形分割来达到对数据聚类的目的。算法来至文章Eigentaste: A Constant Time Collaborative Filtering Algorithm。算法步骤（以二维空间为例）：1. 确定将所有样本点包含在内的最小矩形。2. 将所得的最小矩形，长和宽的中点连线，把矩形划分成四等分3. 将四个子矩形，依据步骤2中方法再划分成四等分4. 将靠近...

Kmeans聚类算法原理与实现【代码】【图】

Kmeans聚类算法1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为k个类别，算法描述如下：　　（1）适当选择k个类的初始中心，最初一般为随机选取；　　（2）在每次迭代中，对任意一个样本，分别求其到k个...

记录学习k-means聚类算法

由于要将有限个样本聚类成已知个数的簇，因此想到了K-means聚类，很经典的算法，看了一个入门blog感觉很不错，现在分享出来，也可以参考简单的代码：https://blog.csdn.net/code_caq/article/details/68486668原文：https://www.cnblogs.com/helloHKTK/p/10645184.html

k-均值聚类算法1【图】

一、k-means算法：　　1、优缺点：　　　　优点：容易实现。　　　　缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。　　2、伪代码描述：原文：https://www.cnblogs.com/monty12/p/10128541.html

ML: 聚类算法R包 - 模型聚类【代码】【图】

模型聚类 mclust::MclustRWeka::Cobwebmclust::MclustEM算法也称为期望最大化算法，在是使用该算法聚类时，将数据集看作一个有隐形变量的概率模型，并实现模型最优化，即获取与数据本身性质最契合的聚类方式为目的，通过‘反复估计’模型参数找出最优解，同时给出相应的最有类别级数k所需程序安装包install.packages("mclust")函数示例代码 > library(mclust) > EM<-Mclust(iris[,-5]) > summary(EM,parameters=T) -------------...

optics聚类算法（一）【代码】【图】

前段时间需要对一些客服对话记录做聚类分析，于是抽时间测试了一下常见聚类算法的效果。之前了解过的聚类算法大多在sklearn中都有现成的实现可以直接用，不过optics算法倒没找到，于是就看着论文做了个简易版的。下面是算法源码，关于原理请参考原始论文：C. Ding, X. He, and H. D. Simon, “On the Equivalence of Nonnegative Matrix Factorization and Spectral Clustering,” in Proceedings of the 2005 SIAM International ...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / Spark中的聚类算法