机器学习系列(5) KNN算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了机器学习系列(5) KNN算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2268字，纯文字阅读大概需要4分钟。

内容图文

KNN算法

一、KNN算法介绍

KNN算法全称是K Nearest Neighbors ，KNN原理就是当预测一个值属于什么分类，根据它最近的K个分类是什么进行预测它属于什么类别。

重点有两个： K 的确定和距离的计算

距离的计算：欧式距离

技术分享图片

K值的计算：通过交叉验证（将样本数据按照一定的比例拆分成训练用的数据和验证用的数据），从中选取一个较小的K值开始，不断增加K的值，然后计算验证集合方差，最终找到一个比较适合的K值

二、KNN的优缺点

优点：

简单易用，相比其他算法，KNN的算法比较简单明了。
模型训练较快
预测效果好
对异常值不敏感

缺点：

对内存要求高，要训练所有的数据
预测阶段比较慢
对不相关的功能或者数据规模敏感

三、KNN算法代码实现

3.1. KNN算法主要参数

        def KNeighborsClassifier(n_neighbors =5,
                        weights='uniform',
                        algorithm ='',
                        leaf_size = '30',
                        p=2,
                        metric = 'minkowski',
                        metric_params = None,
                        n_jobs = None
                        )
'''
- n_neighbors: 这个值就是指Knn中的"K"了，通过调整K值，会有不同的效果
- weights： 权重，最普遍的KNN算法无论距离如何，权重都一样的，但是有时候我们想让距离他更近的点更加重要，这个时候就需要调用weight参数，
这个参数有三个选项： 'uniform':不管远近权重都一样；‘distance':距离目标越近权重越高；自定义函数：自定义一个函数，根据输入坐标值返回权重
- algorithm:在sklearn中，要构建knn模型有三种构建方式：1.暴力法：直接计算距离存储比；2.使用kd树构建knn模型；3：使用球状树构建；4 auto自动
选择    'brute':蛮力实现 ；"kd_tree":kd实现KNN；'ball_tree':球状树实现KNN ； 'auto':默认参数，自动选择合适的方法构建模型
- leaf_size:如果选择蛮力实现，这个值是可以忽略的，当使用kd树，他是控制叶子的阈值，默认为30，但是如果数据增多这个参数需要增大，否则速度过慢，
容易过拟合。
- p: 和metric结合使用，当metric参数是minkowski的时候， p=1为曼哈段，p=2是欧式距离，默认为p=2
- metric: 指定距离的度量方法，一般用欧式距离
        'euclidean':欧式距离
        'manhattan':曼哈顿距离
        'chebyshev':切比雪夫距离
        'minkowski':闵可夫斯基距离，默认参数
- n_jobs:指定多少个cpu

3.2. KNN算法在鸢尾花数据集上的实现

导入数据

        from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
iris = load_iris()
x = iris.data
y = iris.target

调参

        # 调整K值
k_range = range(1, 31)
score = []
# 循环，查看误差效果
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    # cv 参数决定数据集划分比例，这里是按照5:1划分训练集和测试集
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    score.append(scores.mean())
# 画学习曲线
plt.plot(k_range, score)
plt.xlabel('value of K for KNN')
plt.ylabel('score')
plt.show()
# 可以发现k =11时，效果最好

技术分享图片

        # 调整weights参数
# weights参数
score1 = []
for k in ['uniform', 'distance']:
    knn = KNeighborsClassifier(n_neighbors=11,
                              weights= k)
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    score1.append(scores.mean())
print(score1)
# 选取weights = uniform参数

[0.98070987654321, 0.9799382716049383]

建模

        # 建模
knn = KNeighborsClassifier(n_neighbors=11, weights='uniform')
clf = knn.fit(x, y)
score = cross_val_score(clf, x, y, cv=10).mean()
score

原文：https://www.cnblogs.com/yangjiez/p/12117960.html

内容总结

以上是互联网集市为您收集整理的机器学习系列(5) KNN算法全部内容，希望文章能够帮你解决机器学习系列(5) KNN算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1074725.html

来源：【匿名】

【上一篇】归并排序【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【机器学习系列(5) KNN算法】教程文章相关的互联网学习教程文章

原理：计算当前点（无label，一般为测试集）和其他每个点（有label，一般为训练集）的距离并升序排序，选取k个最小距离的点，根据这k个点对应的类别进行投票，票数最多的类别的即为该点所对应的类别。代码实现（数据集采用的是iris）： 1import numpy as np2from sklearn.datasets import load_iris3from sklearn.model_selection import train_test_split4from sklearn import neighbors5from sklearn.metrics import accuracy_sc...

KNN算法【代码】【图】

KNN算法的介绍请参考：http://blog.csdn.net/zouxy09/article/details/16955347统计学习方法里面给出了KD Tree的算法介绍,按照书上的进行了实现：# -*- coding: utf-8 -*-from operator import itemgetter from copy import deepcopy import heapqclass Node(object):def__init__(self, dim, label=None, parent = None,split = 0):"""kd树的节点:param dim: 节点的向量:param label: 节点的label:param parent: 父节点:param spli...

使用KNN算法对鸢尾花数据集进行分类处理【图】

首先对数据进行读取与处理然后实现KNN分类算法上边是把原始数据集切割为测试集和训练集，然后创建KNN对象进行训练和测试原文：https://www.cnblogs.com/lxt-/p/11523385.html

KNN算法Hadoop实现及kaggle digit recognition数据测试【图】

软件版本：Hadoop2.6,MyEclipse10.0 , Maven 3.3.2源码下载地址：https://github.com/fansy1990/knn 。1. KNN算法思路如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。-- 摘自《邻近算法》，百度百科2. KNN算法MR实现：Hadoo...

KNN算法--python实现【代码】

邻近算法或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。关于K最近邻算法，非常好的一篇文章：KNN算法理解行业应用：客户流失预测、欺诈侦测等（更适合于稀有事件的分类问题）写在前面的：Python2.7 数据iris: http://pan.baidu.com/s/1bHuQ0A 测试数据集: iris的第1行数据；训练数据: ir...

机器学习系列(5) KNN算法【代码】【图】

KNN算法一、KNN算法介绍KNN算法全称是K Nearest Neighbors ，KNN原理就是当预测一个值属于什么分类，根据它最近的K个分类是什么进行预测它属于什么类别。重点有两个： K 的确定和距离的计算距离的计算：欧式距离K值的计算：通过交叉验证（将样本数据按照一定的比例拆分成训练用的数据和验证用的数据），从中选取一个较小的K值开始，不断增加K的值，然后计算验证集合方差，最终找到一个比较适合的K值二、KNN的优缺点优点：简单易用，...

kNN算法【代码】

import numpy as np import operator import os def createDataset():group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])lables=[‘A‘,‘A‘,‘B‘,‘B‘]return group,lablesdef classify0(inX,dataSet,labels,k):dataSetSize=dataSet.shape[0]diffMat=np.tile(inX,(dataSetSize,1))-dataSetsqDiffMat=diffMat**2sqDistances=sqDiffMat.sum(axis=1)distances=sqDistances**0.5sortDistancesIndex=distances.argsort()classCo...

《机学五》KNN算法及实例【代码】【图】

一、概述【定义】如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。二、距离计算公式两个样本的距离可以通过如下公式计算，又叫【欧式距离】设有特征，a(a1,a2,a3),b(b1,b2,b3)，那么：\[\sqrt{(a1-b1)^{2}+(a2-b2)^{2}+(a3-b3)^{2}}\]三、sklearn k-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')n_neighbors：int,可选（...

首页 / 算法 / 机器学习系列(5) KNN算法

机器学习系列(5) KNN算法

内容导读

内容图文

KNN算法

一、KNN算法介绍

二、KNN的优缺点

三、KNN算法代码实现

3.1. KNN算法主要参数

3.2. KNN算法在鸢尾花数据集上的实现

内容总结

内容备注

内容手机端

【机器学习系列(5) KNN算法】教程文章相关的互联网学习教程文章

python实现简单knn算法【代码】

KNN算法【代码】【图】

使用KNN算法对鸢尾花数据集进行分类处理【图】

KNN算法Hadoop实现及kaggle digit recognition数据测试【图】

KNN算法--python实现【代码】

机器学习系列(5) KNN算法【代码】【图】

kNN算法【代码】

《机学五》KNN算法及实例【代码】【图】

Python中KNN算法(k-近邻算法)的详细介绍（附示例）【图】

关于KNN算法详细介绍【图】

kNN算法python实现和简单数字识别的方法【图】

Python机器学习算法之KNN算法【代码】【图】

KNN算法实战-改进约会网站配对效果【代码】【图】

从零开始的《数据挖掘与大数据分析》课堂学习笔记-6 7 第四章分类决策树 KNN算法朴素贝叶斯【图】

机器学习之kNN算法【图】

KNN算法 - 相关标签

机器学习 - 相关标签

算法 - 最新教程

算法 - 最热教程