首页 / 算法 / 5.无监督学习-DBSCAN聚类算法及应用

5.无监督学习-DBSCAN聚类算法及应用

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了5.无监督学习-DBSCAN聚类算法及应用，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2496字，纯文字阅读大概需要4分钟。

内容图文

DBSCAN方法及应用

1.DBSCAN密度聚类简介

DBSCAN 算法是一种基于密度的聚类算法：
　　1.聚类的时候不需要预先指定簇的个数
　　2.最终的簇的个数不确定
DBSCAN算法将数据点分为三类：
　　1.核心点：在半径Eps内含有超过MinPts数目的点。
　　2.边界点：在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。
　　3.噪音点：既不是核心点也不是边界点的点。

如下图所示：图中黄色的点为边界点，因为在半径Eps内，它领域内的点不超过MinPts个，我们这里设置的MinPts为5；而中间白色的点之所以为核心点，是因为它邻域内的点是超过MinPts（5）个点的，它邻域内的点就是那些黄色的点！

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

2.DBSCAN算法的流程

1.将所有点标记为核心点、边界点或噪声点；
2.删除噪声点；
3.为距离在Eps之内的所有核心点之间赋予一条边；
4.每组连通的核心点形成一个簇；
5.将每个边界点指派到一个与之关联的核心点的簇中（哪一个核心点的半径范围之内）。

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

3.应用实例

数据介绍

现有大学校园网的日志数据，290条大学生的校园网使用情况数据，数据包括用户ID,设备的MAC地址，IP地址，开始上网时间，停止上网时间，上网时长，校园网套餐等。利用已有数据，分析学生上网的模式。

实验目的
通过DBSCAN聚类，分析学生上网时间和上网时长的模式。

技术路线
采用：sklearn.cluster.DBSCAN 模块

下图为一个数据的实例展示：

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

通过上述上网时间的聚类分析和上网时长的聚类分析得出我们想要的同学们上网的时间和时长的分布结果！

1.建立工程，导入sklearn相关包
　　import numpy as np
　　from sklearn.cluster import DBSCAN
　　注意：DBSCAN主要参数：
　　　　1.eps:两个样本被看作邻居节点的最大距离
　　　　2.min_samples:簇的样本数
　　　　3.metric:距离计算方式
　　例：sklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric=‘euclidean‘) #euclidean表明我们要采用欧氏距离计算样本点的距离！

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

3-1.上网时间聚类，创建DBSCAN算法实例，并进行训练，获得标签：

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

4.输出标签，查看结果

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

为了更好的展示结果，我们可以把它画成直方图的形式，便于我们分析；如下我们使用 matplotlib库中的hist函数来进行直方图的展示：

5.画直方图，分析实验结果：

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

6.数据分布 vs 聚类

这里就是机器学习的一个小技巧了，左边的数据分布不适用于聚类分析的，如果我们想对这类数据进行聚类分析，需要对这些数据进行一些数学变换，通常我们采用取对数的变换方法，将这种数据变换之后，变换后的数据就比较适合用于聚类分析了；

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

3-2.上网时长聚类，创建DBSCAN算法实例，并进行训练，获得标签：

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

4-2.输出标签，查看结果

5.无监督学习-DBSCAN聚类算法及应用 - 文章图片

我们也可以看到：时长的聚类效果是不如时间的聚类效果明显的！

5.无监督学习-DBSCAN聚类算法及应用

标签：str pts 小技巧流程模式实验日志用户时长

本文系统来源：http://www.cnblogs.com/python-machine/p/6941949.html

内容总结

以上是互联网集市为您收集整理的5.无监督学习-DBSCAN聚类算法及应用全部内容，希望文章能够帮你解决5.无监督学习-DBSCAN聚类算法及应用所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/483419.html

来源：【匿名】

【上一篇】【机器学习】DBSCAN Algorithms基于密度的聚类算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【5.无监督学习-DBSCAN聚类算法及应用】教程文章相关的互联网学习教程文章

POJ 3764 The xor-longest Path ( 字典树应用—— 求连续段相异或最大最小的线性算法)（好题）

题意：已知:给出n个结点的树,定义:两结点间的权值为两点之间所有边相异或的值.求:树中的某两点间的最大权值.思路：先说简单一点的题：有道CowXor，是一串线性序列，求某连续段异或的最大值，这题的思路是先求前i项序列相异或的值Si，所以x到y的连续异或就是Sx^Sy ，因为a^b = (a ^ c) ^ (b ^ c).这题同样是这个思路把线性拓展到树上，先求任何点到某一定点的连续异或值，比如选根结点0，所以这时候有两种情况，1.x，y的路径通过了根...

图像处理之积分图应用四（基于局部均值的图像二值化算法）【代码】【图】

图像处理之积分图应用四（基于局部均值的图像二值化算法）基本原理均值法，选择的阈值是局部范围内像素的灰度均值(gray mean)，该方法的一个变种是用常量C减去均值Mean，然后根据均值实现如下操作： pixel = (pixel > (mean - c)) ? object : background 其中默认情况下参数C取值为0。object表示前景像素，background表示背景像素。实现步骤 1. 彩色图像转灰度图像 2. 获取灰度图像的像素数据，预计算积分图 3. 根据输入的参...

Java数据结构-串及其应用-KMP模式匹配算法【代码】

串（string）是由零个或多个宇符组成的有限序列，又名叫字符串。定义的解释： ??串中的字符数目n称为串的长度，定义中谈到“有限”是指长度n是一个有限的数值。 ??零个字符的串称为空串（null string），它的长度为零，可以直接用两双引号一表示，也可以用希腊Φ字母来表示。 ??所谓的序列，说明串的相邻字符之间具有前驱和后继的关系。下面是串的一些概念性东西：??空格串，是只包含空格的串。注意它与空串的区别，空格串是有内...

4.K均值算法--应用【代码】【图】

1. 应用K-means算法进行图片压缩读取一张图片观察图片文件大小，占内存大小，图片数据结构，线性化用kmeans对图片像素颜色进行聚类获取每个像素的颜色类别，每个类别的颜色压缩图片生成：以聚类中收替代原像素颜色，还原为二维观察压缩图片的文件大小，占内存大小from sklearn.datasets import load_sample_image from sklearn.cluster import KMeans import matplotlib.pyplot as plt import matplotlib.image as img import sys ...

算法与数据结构--图的实现、基本操作及应用

#include<iostream> #include<queue> #include<stack> using namespace std;#define INFINITY DBL_MAX //无穷大 #define MAX_VERTEX_NUM 20 //最大顶点个数 enum GraphKind //图的类型 {DG,DN,UDG,UDN//有向图、有向网、无向图、无向网 };//弧结构 typedef struct ArcCell {double adj;//权值，无权图用1表示 }AdjMatrix[MAX_VERTEX_NUM][MAX_VERTEX_NUM]; //邻接矩阵图结构struct MGraph {int vexs[MAX_VERTEX_NUM];//顶点集合...

A*算法在OI中的应用【代码】

1.A*算法我们普通的搜索算法往往复杂度都是指数级，OI中这样的复杂度无法满足我们的要求。这时我们一般都会进行一些剪枝优化，但在有些题目中却可以有更加巧妙的方法——A*算法。A*算法作为一种基础的启发式搜索，它不同于DFS和BFS将所有情况进行遍历，它能从所有情况中选出较优的再进行遍历。因此，它让搜索从“瞎搜”转化到了“有目标的搜索”。那么如何确定较优的情况便是关键所在。A*算法中核心是一个估值函数，我们可以通过它...

《数据结构、算法与应用》第一章习题1.2

一年前写的一个脚本，通过爬虫技术，将网站页面上出现的email地址给扒下来，然后进行重发邮件，由于邮箱的安全机制，可能会进行阻拦(可以考虑怎么避免这样).........附代码：main.py#! /usr/bin/python # -*- coding: utf-8 -*-import re, urllib, sys, SendMailpatt2 = ‘\w+@\w+\.com‘ pattern = ‘[\w.-]+@[\w.-]+\.\w+‘if len(sys.argv) < 2:print "print mail --help for more help"sys.exit(1)if sys.argv[1].startswit...

排序算法比较及其应用【代码】

一、将各种数据排序只要实现了Comparable接口的数据类型就可以被排序。但要使算法能够灵活地用不同字段进行排序，则是后续需要考虑的问题。1、指针排序在Java中，指针操作是隐式的，排序算法操作的总是数据引用，而不是数据本身。 2、键不可变如果在排序后，用例还可以改变键值，那么数组很可能就不是有序的了。类似，优先队列也会乱套。Java中，可以用不可变数据类型作为键来避免这个问题，如String，Integer，Double和File都是不...

矩阵分解在协同过滤推荐算法中的应用

在协同过滤推荐算法总结中，我们讲到了用矩阵分解做协同过滤是广泛使用的方法，这里就对矩阵分解在协同过滤推荐算法中的应用做一个总结。(过年前最后一篇！祝大家新年快乐！明年的目标是写120篇机器学习，深度学习和NLP相关的文章)1. 矩阵分解用于推荐算法要解决的问题　　　　在推荐系统中，我们常常遇到的问题是这样的，我们有很多用户和物品，也有少部分用户对少部分物品的评分，我们希望预测目标用户对其他未评分物品的评分，进...

【sklearn第三讲】常见机器学习算法应用场景实例六十则

本文整理了60个机器学习算法应用场景实例，含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。目录1 分类算法应用场景实例　　1.1 O2O优惠券使用预测　　1.2 市民出行选乘公交预测　　1.3待测微生物种类判别　　1.4 基于运营商数据的个人征信评估　　1.5 商品图片分类　　1.6 广告点击行为预测　　1.7 基于文本内容的垃圾短信识...

R语言之Apriori算法应用【代码】【图】

一. 概念关联分析用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则（association rule）或频繁项集的形式表示。项集：在关联分析中，包含0个或多个项的集合被称为项集（itemset）。如果一个项集包含k个项，则称它为k-项集。例如:{啤酒，尿布，牛奶，花生} 是一个4-项集。空集是指不包含任何项的项集。关联规则（association rule）：是形如 X → Y 的蕴含表达式，其中X和Y是不相交的项集，即：X∩Y=?。关联规...

数组的应用：冒泡排序，折半查找及二维数组的应用【代码】【图】

人类思维--计算机逻辑思维逻辑思维--代码实现写书法：描红——临摹——碑贴——自成一体——草复习：数组：一维，二维，多维一维：豆角。连续，同一类型。定义：数据类型[] 数组名=new 数据类型[长度]{.,.,.,.}; 赋值：数组名[下标] = 值取值：数组名[下标] 灵活运用：与for循环的结合应用。 1.求最大值，最小值。 2.求总和，平均。 3.随机（生成下标）抽值。数组的应用：（一）.冒泡排序。 1.冒泡排序是用双层循环解决。外...

二叉树的应用（南邮数据结构实验二）【代码】

借鉴了书本和学长的代码 1 #include<iostream>2usingnamespace std;3 template<class T> 4struct BTNode // 结点类 5{6 BTNode()7 {8 lchild=rchild=NULL;9 10 }11 BTNode(const T &x)12 {13 element=x;14 lchild=rchild=NULL;15 }16 BTNode(const T &x,BTNode<T> *l,BTNode<T> *r)17 {18 element=x;19 lchild=l;20 rchild=r;21 22 ...

Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用【代码】

1. Naive Bayes算法朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了，常用的有Bernoulli和Multinomial两种。在文本分类上经常会用到这两种方法。在词袋模型中，对于一篇文档$d$中出现的词$w_0,w_1,...,w_n$, 这篇文章被分类为$c$的概率为$$p(c|w_0,w_1,...,w_n) = \frac{p(c,w_0,w_1,...,w_n)}{p(w_0,w_1,...,w_n)} = \frac{p(w_0,w_1,...,w_n|c)*p(c)}{p(w_0,w_1,...,w_n)}$$ 对于一篇给定文章，分母为常数，基于朴素贝叶...

K均值算法——应用【代码】【图】

1. 应用K-means算法进行图片压缩读取一张图片观察图片文件大小，占内存大小，图片数据结构，线性化用kmeans对图片像素颜色进行聚类获取每个像素的颜色类别，每个类别的颜色压缩图片生成：以聚类中收替代原像素颜色，还原为二维观察压缩图片的文件大小，占内存大小代码如下from sklearn.datasets import load_sample_imagefrom matplotlib import pyplot as pltfrom sklearn.cluster import KMeansimport numpy as npimport s...

SCAN - 相关标签

scanf函数

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 5.无监督学习-DBSCAN聚类算法及应用

5.无监督学习-DBSCAN聚类算法及应用

内容导读

内容图文

DBSCAN方法及应用

1.DBSCAN密度聚类简介

2.DBSCAN算法的流程

3.应用实例

内容总结

内容备注

内容手机端

【5.无监督学习-DBSCAN聚类算法及应用】教程文章相关的互联网学习教程文章

POJ 3764 The xor-longest Path ( 字典树应用—— 求连续段相异或最大最小的线性算法)（好题）

图像处理之积分图应用四（基于局部均值的图像二值化算法）【代码】【图】

Java数据结构-串及其应用-KMP模式匹配算法【代码】

4.K均值算法--应用【代码】【图】

算法与数据结构--图的实现、基本操作及应用

A*算法在OI中的应用【代码】

《数据结构、算法与应用》第一章习题1.2

排序算法比较及其应用【代码】

矩阵分解在协同过滤推荐算法中的应用

【sklearn第三讲】常见机器学习算法应用场景实例六十则

R语言之Apriori算法应用【代码】【图】

数组的应用：冒泡排序，折半查找及二维数组的应用【代码】【图】

二叉树的应用（南邮数据结构实验二）【代码】

Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用【代码】

K均值算法——应用【代码】【图】

SCAN - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程