首页 / 算法 / 第三篇：基于K-近邻分类算法的手写识别系统

第三篇：基于K-近邻分类算法的手写识别系统

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了第三篇：基于K-近邻分类算法的手写识别系统，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2560字，纯文字阅读大概需要4分钟。

内容图文

前言

本文将继续讲解K-近邻算法的项目实例 - 手写识别系统。

该系统在获取用户的手写输入后，判断用户写的是什么。

为了突出核心，简化细节，本示例系统中的输入为32x32矩阵，分类结果也均为数字。但对于汉字或者别的分类情形原理都是一样的。

有了前面学习的基础，下面直接进入项目开发步骤。

第一步：收集并准备数据

在用户主目录的trainingDigits子目录中，存放的是2000个样本数据。

每个样本一个文件，其中一部分如下所示：

技术分享

文件命名格式为：

分类标签_标签内序号

如 0_20.txt 就表示该样本是分类标签为0的第20个特征集。20就是个序号以区分标签内不同文件而已，没其他意义。

样本数据都是32x32矩阵：

技术分享

对于这样的二维数据，如何判断样本和目标对象的距离呢？首先想到的是可以将二维降到一维。

当然也可以考虑去找找二维的距离求解方法。

下面给出降维函数：

             1
            #
             ==============================================
             2
            #
             输入：
             3
            #
                    训练集文件名(含路径)
             4
            #
             输出：
             5
            #
                    降维后的样本数据(这里一个文件一份样本数据)
             6
            #
             ==============================================
             7
            def
             img2vector(filename):

             8
            ‘
            将32x32的矩阵转换为1024一维向量
            ‘
             9
            10
            #
             初始化返回向量
            11     returnVect = numpy.zeros((1,1024))
1213# 打开样本数据文件14     fr = open(filename)
1516# 降维处理17for i in range(32):
18         lineStr = fr.readline()
19for j in range(32):
20             returnVect[0,32*i+j] = int(lineStr[j])
2122return returnVect

第二步：测试算法

K临近的分类函数代码在之前的文章K-近邻分类算法原理分析与代码实现中给出了，这里直接调用：

            #
             =================================================
            
#
             输入：
            
#
                    空
            
#
             输出：
            
#
                    对指定的测试集文件，指定的训练集数据进行K近邻分类
            
#
                    并打印结果信息
            
#
             =================================================
            def
             handwritingClassTest():
    
            ‘
            手写数字识别系统测试代码
            ‘
            #
             分类列表
    hwLabels = []
    
    # 获取所有训练集文件名
    trainingFileList = os.listdir(‘/home/fangmeng/trainingDigits‘)
    
    # 定义训练集结构体
    m = len(trainingFileList)
    trainingMat = numpy.zeros((m, 1024))
    
    for i in range(m):
        # 当前训练集文件名
        filenameStr = trainingFileList[i]
        # 文件名(filenameStr去掉.txt后缀)
        fileStr = filenameStr.split(‘.‘)[0]
        # 分类标签
        classNumStr = int(fileStr.split(‘_‘)[0])
        # 将分类标签加入分类列表        hwLabels.append(classNumStr)
        # 将当前训练集文件降维后加入到训练集结构体
        trainingMat[i] = img2vector(‘/home/fangmeng/trainingDigits/%s‘ % filenameStr)
    
    # 获取所有测试集文件名
    testFileList = os.listdir(‘/home/fangmeng/testDigits‘)
    # 错误分类记数
    errorCount = 0
    # 测试集文件个数
    mTest = len(testFileList)
    
    print"错误的分类结果如下:"for i in range(mTest):
        # 当前测试集文件名
        fileNameStr = testFileList[i]
        # 文件名(filenameStr去掉.txt后缀)
        fileStr = fileNameStr.split(‘.‘)[0]
        # 分类标签
        classNumStr = int(fileStr.split(‘_‘)[0])
        # 将当前测试集文件降维
        vectorUnderTest = img2vector(‘/home/fangmeng/testDigits/%s‘ % fileNameStr)
        # 对当前测试文件进行分类
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        
        if (classifierResult != classNumStr): 
            print"分类结果: %d, 实际结果: %d" % (classifierResult, classNumStr)
            errorCount += 1.0
            
    print"\n总错误数: %d" % errorCount
    print"\n总错误数: %f" % (errorCount/float(mTest))

运行结果：

技术分享

小结

1. K-邻近算法的本质是用来分类的，要从分类的思想去思考这个算法的运用。

2. 再强调一次K-邻近算法是没有训练过程的，这点和以后学习的其他分类方法，比如决策树对比后就更清楚了。

3. K-邻近算法的效率很低，不论是从时间还是空间上看(单就这个简单项目都跑得很慢)。因此需要学习更多更优化的算法。

4. 有兴趣有时间可以考虑在hadoop/spark集群下实现这个项目或使用该算法的其他类似项目，定能大幅度提升性能。

原文：http://www.cnblogs.com/muchen/p/6137968.html

内容总结

以上是互联网集市为您收集整理的第三篇：基于K-近邻分类算法的手写识别系统全部内容，希望文章能够帮你解决第三篇：基于K-近邻分类算法的手写识别系统所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1072289.html

来源：【匿名】

【上一篇】加分二叉树（codevs 1090）【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【第三篇：基于K-近邻分类算法的手写识别系统】教程文章相关的互联网学习教程文章

基于朴素贝叶斯分类器的文本分类算法（转）【图】

原文：http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html 源代码下载：NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题，我以前也写过一篇blog《基于K-Means的文本聚类算法》，加上最近读了几本数据挖掘和机器学习的书籍，因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法（上）》一文中简单介绍了贝叶斯学习的基本理论，这一篇将展示如何将该...

Netflix工程总监眼中的分类算法：深度学习优先级最低【图】

原文：http://blog.jobbole.com/87148/编者按】针对Quora上的一个老问题：不同分类算法的优势是什么？Netflix公司工程总监Xavier Amatriain近日给出新的解答，他根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习，并谈了他的不同认识。他并不推荐深度学习为通用的方法，这也侧面呼应了我们之前讨论的问题：深度学习能否取代其他机器学习算法。不同分类算法的优势是什么？例如有大量的训练数据集，上万的实例，超过...

分类与监督学习，朴素贝叶斯分类算法【图】

1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。分类与聚类都是分开几类，分类是根据历史经验，已知类别，监督学习，聚类是自己分析现有数据，无监督学习监督学习利用历史数据分类，把已有数据代入。无监督学习是没有样本，将已有数据分类2.朴素贝叶斯分类算法实例利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。有六个分类变量(分类因子)：性别，...

基于朴素贝叶斯分类器的文本分类算法【图】

源代码下载：NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题，我以前也写过一篇blog《基于K-Means的文本聚类算法》，加上最近读了几本数据挖掘和机器学习的书籍，因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法（上）》一文中简单介绍了贝叶斯学习的基本理论，这一篇将展示如何将该理论运用到中文文本分类中来，具体的文本分类原理就不再介绍了，在上半部分...

行为分类算法【代码】

根据两个用户的行为记录[[ 0, 1, 4, 9 ], [ 8, 0, 7, 2 ]]，找出中间记录[4,0.5,5.5,5.5]，生成特征[[ 0, 1, 0, 1 ],[ 1, 0, 1, 0 ]]求出特征出现概率[1/2,1/2,1/2,1/2]输入新的行为,更具中间记录，生成特征，更具特征概率，新的行为和旧的行为是一类的概率为贝叶斯联合概率const execMathExpress=require(‘exec-mathexpress‘); //贝叶斯计算公式function execByes(gArr){const arr1=[]const arr2=[]const Obj={}for(let i=0...

第七篇：Logistic回归分类算法原理分析与代码实现【代码】【图】

前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码，Python代码实现。 (说明：从本文开始，将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数，以用于分类。)算法原理首先要提到的概念是回归。对于回归这个概念，在以后的文章会有系统而深入的学习。简单的说，回归就是用一条线对N多数据点进行一个拟合，这个拟合的过程就叫做回归。 Logistic...

KNN分类算法实现手写数字识别【代码】【图】

需求：利用一个手写数字“先验数据”集，使用knn算法来实现对手写数字的自动识别；先验数据（训练数据）集：?数据维度比较大，样本数比较多。? 数据集包括数字0-9的手写体。?每个数字大约有200个样本。?每个样本保持在一个txt文件中。?手写体图像本身的大小是32x32的二值图，转换到txt文件保存后，内容也是32x32个数字，0或者1，如下：数据集压缩包解压后有两个目录：（将这两个目录文件夹拷贝的项目路径下E:/KNNCase/digits/）?目...

用最少的字介绍最常用的机器学习分类算法

在搞笑诺贝尔奖Ig Nobel Prize颁奖典礼上, 有一个节目叫24/7，先让科研者先用24秒完整讲解科研工作，然后再用让所有人都明白的7个单词总结。有人讲，如果一个人不能把深奥的理论描述清楚得让跳广场舞的大妈明白，就不能算真正理解中这个理论。虽然凡事都有例外，但是跟外行人聊天或者面试时，我们经常会遇到要把深奥的专业知识讲解出来，让非专业人士都明白其中的精髓。这篇博客将斗胆挑战讲解机器学习中的几个常用的分类算法，字数...

第二天- 最基础的分类算法-k近邻算法 kNN【图】

思想极度简单应用数学知识少效果好（缺点？）可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程原文：https://www.cnblogs.com/wuxiping2019/p/12056562.html

第一个分类算法【图】

以前我们要预测的y是连续的，现在我们即将要讨论的分类算法中，y是离散的值。先看一些分类的问题，像medical diagnosis——医学诊断，判断你是否生病；垃圾邮箱过滤器——判断一封邮件是不是垃圾邮箱。也不是说这样的问题完全不能用线性回归的方式进行分类，但有很多时候，线性回归不能很好地进行分类。假设现在我们知道这个y∈{0,1}，y只能取0或1. ,所以我们的假设hθ(x)不能再是线性函数所以...

《机器学习系统设计》之k-近邻分类算法【图】

前言：本系列是在作者学习《机器学习系统设计》（[美] WilliRichert）过程中的思考与实践，全书通过Python从数据处理，到特征工程，再到模型选择，把机器学习解决问题的过程一一呈现。书中设计的源代码和数据集已上传到我的资源：http://download.csdn.net/detail/solomon1558/8971649 第2章通过在真实的Seeds数据集构建一个k-近邻分类器，从而达到一个较好的分类效果。本章主要涉及数据可视化分析、特征和特征工程、数据...

分类与监督学习，朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。 2.朴素贝叶斯分类算法实例利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数目标分类变量疾病：–心梗–不稳定性心绞痛新的实例：–(性别=‘男’，年龄<70, KILLP=‘I‘，饮酒=‘是’，吸烟≈‘是”，住院天数<7)最可能是哪个疾病？上传演...

运行Mahout分类算法，分析20newsgroup的分类过程【代码】

1.由于虚拟机不能联网，直接运行./example/bin/classify-20newsgroups.sh出现很多问题，索性直接看目标运行classify-20newsgroups.sh#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under the Apach...

分类算法

分类算法在解决大容量样本的时候通常面临两个问题即查找速率和存储空间的问题，这也是算法通常涉及到的时间复杂度和空间复杂度的问题。在一些高端应用当中，时间复杂度更为突出，也就是查找性能更为重要。比较流行的或者代表性的算法有hicuts，hypersplit，d2bs，hicuts是在两维上进行分割，而hypersplit是在多维上进行分割，适用性更强。分类算法的理论基础是计算几何中多维空间的点定位问题。几个基本的定理：1.n个规则的每个维...

算法 - 朴素贝叶斯分类算法【图】

带你搞懂朴素贝叶斯分类算法带你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法，希望有利于他人理解。 1 分类问题综述对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 第三篇：基于K-近邻分类算法的手写识别系统

第三篇：基于K-近邻分类算法的手写识别系统

内容导读

内容图文

前言

第一步：收集并准备数据

第二步：测试算法

小结

内容总结

内容备注

内容手机端

【第三篇：基于K-近邻分类算法的手写识别系统】教程文章相关的互联网学习教程文章

基于朴素贝叶斯分类器的文本分类算法（转）【图】

Netflix工程总监眼中的分类算法：深度学习优先级最低【图】

分类与监督学习，朴素贝叶斯分类算法【图】

基于朴素贝叶斯分类器的文本分类算法【图】

行为分类算法【代码】

第七篇：Logistic回归分类算法原理分析与代码实现【代码】【图】

KNN分类算法实现手写数字识别【代码】【图】

用最少的字介绍最常用的机器学习分类算法

第二天- 最基础的分类算法-k近邻算法 kNN【图】

第一个分类算法【图】

《机器学习系统设计》之k-近邻分类算法【图】

分类与监督学习，朴素贝叶斯分类算法

运行Mahout分类算法，分析20newsgroup的分类过程【代码】

分类算法

算法 - 朴素贝叶斯分类算法【图】

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程