首页 / 算法 / 几种常见模式识别算法整理和总结

几种常见模式识别算法整理和总结

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了几种常见模式识别算法整理和总结，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4742字，纯文字阅读大概需要7分钟。

内容图文

这学期选了门模式识别的课。发现最常见的一种情况就是，书上写的老师ppt上写的都看不懂，然后绕了一大圈去自己查资料理解，回头看看发现，Ah-ha，原来本质的原理那么简单，自己一開始仅仅只是被那些看似formidable的细节吓到了。所以在这里把自己所学的一些点记录下来，供备忘，也供參考。

1. K-Nearest Neighbor

K-NN能够说是一种最直接的用来分类未知数据的方法。基本通过以下这张图跟文字说明就能够明确K-NN是干什么的

简单来说，K-NN能够看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就開始跟训练数据里的每一个点求距离，然后挑离这个训练数据近期的K个点看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。一个比較好的介绍k-NN的课件能够见以下链接，图文并茂，我当时一看就懂了

http://courses.cs.tamu.edu/rgutier/cs790_w02/l8.pdf

实际上K-NN本身的运算量是相当大的，由于数据的维数往往不止2维，并且训练数据库越大，所求的样本间距离就越多。就拿我们course project的人脸检測来说，输入向量的维数是1024维(32x32的图，当然我认为这样的方法比較silly)，训练数据有上千个，所以每次求距离(这里用的是欧式距离，就是我们最经常使用的平方和开根号求距法) 这样每一个点的归类都要花上上百万次的计算。所以如今比較经常使用的一种方法就是kd-tree。也就是把整个输入空间划分成非常多非常多小子区域，然后依据临近的原则把它们组织为树形结构。然后搜索近期K个点的时候就不用全盘比較而仅仅要比較临近几个子区域的训练数据即可了。kd-tree的一个比較好的课件能够见以下链接：

http://www.inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/inf2b-learn06-lec.pdf

当然，kd-tree有一个问题就是当输入维数跟训练数据数量非常接近时就非常难优化了。所以用PCA(稍后会介绍)降维大多数情况下是非常有必要的

2. Bayes Classifier

贝叶斯方法一篇比較科普的中文介绍能够见pongba的平庸而奇妙的贝叶斯方法: http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/，实际实现一个贝叶斯分类器之后再回头看这篇文章，感觉就非常不一样。

在模式识别的实际应用中，贝叶斯方法绝非就是post正比于prior*likelihood这个公式这么简单，一般而言我们都会用正态分布拟合likelihood来实现。

用正态分布拟合是什么意思呢？贝叶斯方法式子的右边有两个量，一个是prior先验概率，这个求起来非常easy，就是一大堆数据中求某一类数据占的百分比就能够了，比方300个一堆的数据中A类数据占100个，那么A的先验概率就是1/3。第二个就是likelihood，likelihood能够这么理解：对于每一类的训练数据，我们都用一个multivariate正态分布来拟合它们(即通过求得某一分类训练数据的平均值和协方差矩阵来拟合出一个正态分布)，然后当进入一个新的測试数据之后，就分别求取这个数据点在每一个类别的正态分布中的大小，然后用这个值乘以原先的prior便是所要求得的后验概率post了。

贝叶斯公式中另一个evidence，对于刚開始学习的人来说，可能会一下没法理解为什么在实际运算中它不见了。实则上，evidence仅仅是一个让最后post归一化的东西，而在模式分类中，我们仅仅须要比較不同类别间post的大小，归一化反而添加了它的运算量。当然，在有的地方，这个evidence绝对不能省，比方后文提到的GMM中，须要用到EM迭代，这时候假设不用evidence将post归一化，后果就会非常可怕。

Bayes方法一个不错的參考网页可见以下链接：

http://www.cs.mcgill.ca/~mcleish/644/main.html

3. Principle Component Analysis

PCA，译为主元分析或者主成份分析，是一种非常好的简化数据的方法，也是PR中常见到不能再常见的算法之中的一个。CSDN上有一篇非常不错的中文博客介绍PCA，《主元分析(PCA)理论分析及应用》，能够见以下链接：

http://blog.csdn.net/ayw_hehe/archive/2010/07/16/5736659.aspx

对于我而言，主元分析最大的意义就是让我明确了线性代数中特征值跟特征向量到底代表什么，从而让我进一步感受到了线性代数的博大精深魅力无穷。- -|||

PCA简而言之就是依据输入数据的分布给输入数据又一次找到更能描写叙述这组数据的正交的坐标轴，比方以下一幅图，对于那个椭圆状的分布，最方便表示这个分布的坐标轴肯定是椭圆的长轴短轴而不是原来的x y。

那么怎样求出这个长轴和短轴呢？于是线性代数就来了：我们求出这堆数据的协方差矩阵(关于什么是协方差矩阵，详见本节最后附的链接)，然后再求出这个协方差矩阵的特征值和特征向量，相应最大特征值的那个特征向量的方向就是长轴(也就是主元)的方向，次大特征值的就是第二主元的方向，以此类推。

关于PCA，推荐两个不错的tutorial:

(1) A tutorial on Principle Component Analysis从最主要的数学原理到应用都有，让我在被老师的讲课弄晕之后瞬间开悟的tutorial:

http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf

(2) 里面有一个非常生动的实现PCA的样例，还有告诉你PCA跟SVD是什么关系的，对编程实现的帮助非常大(当然大多数情况下都不用自己编了):

http://www.math.ucsd.edu/~gptesler/283/pca_07-handout.pdf

4. Linear Discriminant Analysis

LDA，基本和PCA是一对双生子，它们之间的差别就是PCA是一种unsupervised的映射方法而LDA是一种supervised映射方法，这一点能够从下图中一个2D的样例简单看出

图的左边是PCA，它所作的仅仅是将整组数据总体映射到最方便表示这组数据的坐标轴上，映射时没有利用不论什么数据内部的分类信息。因此，尽管做了PCA后，整组数据在表示上更加方便 (降低了维数并将信息损失降到最低) ，但在分类上或许会变得更加困难；图的右边是LDA，能够明显看出，在添加了分类信息之后，两组输入映射到了另外一个坐标轴上，有了这样一个映射，两组数据之间的就变得更易区分了 (在低维上就能够区分，降低了非常大的运算量) 。

在实际应用中，最经常使用的一种LDA方法叫作Fisher Linear Discriminant，其简要原理就是求取一个线性变换，是的样本数据中 “between classes scatter matrix” (不同类数据间的协方差矩阵) 和 “within classes scatter matrix” (同一类数据内部的各个数据间协方差矩阵) 之比的达到最大。关于Fisher LDA更详细的内容能够见以下课件，写的非常不错~

http://www.csd.uwo.ca/~olga/Courses//CS434a_541a//Lecture8.pdf

5. Non-negative Matrix Factorization

NMF，中文译为非负矩阵分解。一篇比較不错的NMF中文介绍文能够见以下一篇博文的链接，《非负矩阵分解：数学的奇异力量》

http://chnfyn.blog.163.com/blog/static/26954632200751625243295/

这篇博文非常大概地介绍了一下NMF的来龙去脉(当然里面那幅图是错的。。。)，当然假设你想更深入地了解NMF的话，能够參考Lee和Seung当年发表在Nature上面的NMF原文，"Learning the parts of objects by non-negative matrix factorization"

http://www.seas.upenn.edu/~ddlee/Papers/nmf.pdf

读了这篇论文，基本其它不论什么介绍NMF基本方法的材料都是浮云了。

NMF，简而言之，就是给定一个非负矩阵V，我们寻找另外两个非负矩阵W和H来分解它，使得后W和H的乘积是V。论文中所提到的最简单的方法，就是依据最小化||V-WH||的要求，通过Gradient Discent推导出一个update rule，然后再对当中的每一个元素进行迭代，最后得到最小值，详细的update rule见下图，注意当中Wia等带下标的符号表示的是矩阵里的元素，而非代表整个矩阵，当年在这个上面绕了好久。。

当然上面所提的方法仅仅是当中一种而已，在http://spinner.cofc.edu/~langvillea/NISS-NMF.pdf中有很多其它具体方法的介绍。

相比于PCA、LDA，NMF有个明显的优点就是它的非负，由于为在非常多情况下带有负号的运算算起来都不这么方便，可是它也有一个问题就是NMF分解出来的结果不像PCA和LDA一样是恒定的。

6. Gaussian Mixture Model

GMM高斯混合模型粗看上去跟上文所提的贝叶斯分类器有点相似，但两者的方法有非常大的不同。在贝叶斯分类器中，我们已经事先知道了训练数据(training set)的分类信息，因此仅仅要依据相应的均值和协方差矩阵拟合一个高斯分布就可以。而在GMM中，我们除了数据的信息，对数据的分类一无所知，因此，在运算时我们不仅须要估算每一个数据的分类，还要估算这些估算后数据分类的均值和协方差矩阵。。。也就是说假设有1000个训练数据10租分类的话，须要求的未知数是1000+10+10(用未知数表示未必确切，确切的说是1000个1x10标志向量,10个与训练数据同维的平均向量，10个与训练数据同维的方阵)。。。反正想想都是非常头大的事情。。。那么这个问题是怎么解决的呢？

这里用的是一种叫EM迭代的方法。

详细用法能够參考 http://neural.cs.nthu.edu.tw/jang/books/dcpr/doc/08gmm.pdf 这份台湾清华大学的课件，写的真是相当的赞，实现代码的话能够參考：

1. 倩倩的博客 http://www.cnblogs.com/jill_new/archive/2010/12/01/1893851.html 和

2. http://www.cs.ru.nl/~ali/EM.m

当然 Matlab里一般也会自带GMM工具箱，其使用方法能够參考以下链接：

http://www.mathworks.com/help/toolbox/stats/gmdistribution.fit.html

原文：http://www.cnblogs.com/zfyouxi/p/3820569.html

内容总结

以上是互联网集市为您收集整理的几种常见模式识别算法整理和总结全部内容，希望文章能够帮你解决几种常见模式识别算法整理和总结所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1306761.html

来源：【匿名】

【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【几种常见模式识别算法整理和总结】教程文章相关的互联网学习教程文章

几种常见模式识别算法整理和总结

这学期选了门模式识别的课。发现最常见的一种情况就是，书上写的老师ppt上写的都看不懂，然后绕了一大圈去自己查资料理解，回头看看发现，Ah-ha，原来本质的原理那么简单，自己一開始仅仅只是被那些看似formidable的细节吓到了。所以在这里把自己所学的一些点记录下来，供备忘，也供參考。 1. K-Nearest NeighborK-NN能够说是一种最直接的用来分类未知数据的方法。基本通过以下这张图跟文字说明就能够明确K-NN是干什么的简单来说...

paxos算法学习总结【图】

核心思想分布式系统架构下如何让整体尽快达成一致观点，也就是多个不同观点收敛到一个观点的过程。难点可能会发生少数节点故障，但绝不是大面积故障，不然系统也没法正常工作。由于存在单点故障，因此不可能将观点由某一台机器的统一。共享内存达到一致性的方案不可取。因此，只能是点对点通信。一些概念算法中有三个角色Proposor，Acceptor，Learner算法有两个阶段，一是预提案，二是正式提案。正式提案的内容也就是观点，预提案不...

C++算法之——常用算法总结

http://blog.sina.com.cn/s/blog_61bebe480100v7c7.html 基本的C++算法分为三类：排序算法、树算法、图算法算法思想有三种：递推、分治、动态规划以及贪心算法。本文将简要介绍上面三类算法，介绍时穿插介绍算法思想。一、排序算法 1、基本O(n^2)排序算法：（对基本排序算法的时间复杂度分析主要考虑比较次数、数据交换次数）冒泡排序：针对数组、本地排序、需要交换数据。O(1)额外空间选择排序：一般针对数组、本地排序、需...

回溯算法的一个总结【图】

回溯算法的模板：result = [] def backtrack(路径, 选择列表): ????if 满足结束条件:{ ????????result.add(路径) ????????return ? ? }?? ? //每个for代表的其实就是一位，由这个for引出的下一个backtrack就是这位的下一位????for 选择 in 选择列表:{ ????????做选择????????backtrack(路径, 选择列表) ????????撤销选择? ? }?问题一：子集给定一组不含重复元素的整数数组 nums，返回该数组所有可能的子集（幂集）。说明：解集不能...

基于C语言的算法总结(不定时更新)【代码】

这篇博客我准备写一些我见过的算法，虽然现在我见过的还很少，但我相信会越来越多，方便日后自己查阅好了开始了求解最大子序列和的最有效的算法 1int MaxSubsequenceSum(constint A[], int N)2{3int ThisSum, MaxSum, j;4// 定义本次循环的和与最大和为0 5 ThisSum = MaxSum = 0; 6// 循环求和 7for (j = 0; j < N; j++)8 {9 ThisSum += A[j]; 10// 判断本次的和与最大和的大小，如果本次和比最大和大，把本次和的值...

排序算法总结【代码】

本文将给出六大经典排序的实现。简单排序算法：冒泡，插入，选择改进排序算法：快排，归并，堆排以下排序用到的交换函数：void swap(int &A, int &B) {int temp = A; A = B; B = temp; }1. 冒泡排序2个相邻的元素相互比较，不满足顺序则交换；每遍历一次数组，使一个元素处于最终位置。时间复杂度O(n2)/**/ 空间复杂度O(1)/**/void BubbleSort(int nums[], intleft, intright) {if (nums == NULL || right-left+1 <= 0)retur...

排序算法总结：一、基数排序【代码】

基数排序(Radix sort)是一种非比较型的整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。基数排序也分为LSD（Least significant digital）和MSD（Most significant digital）两种方式，LSD的排序方式由键值的最右边开始，而MSD则相反，由键值的最左边开始。以LSD为例，假设原来有一串数值如下所示：　　73, 22, 93, 43, 55, 14, 28, 65, 39, 81　　首先根据个位数的数值，在走访数值时将它们分配至编...

机器学习算法总结（二）

SVM上：这个算法应该是机器学习这门课里最重要的部分了。首先是SVM的思想：找到超平面，将两类中距离最近的点分的越开越好（直至二者相等）。然后是函数间隔和几何间隔的定义，二者之间的区别。接着是超平面模型的建立，看看它是如何将问题转化为凸优化问题的。 SVM第一个难点：拉格朗日对偶。由KKT条件可知，起作用的约束都在边界上，这个会用来解释支持向量。由KKT条件知，在S...

算法总结之数组中未出现的最小正整数【代码】

给定一个无序整型数组arr，找到数组中未出现的最小正整数解题思路非常好，需要好好学习一下，很逻辑如果arr长度为N，最优解可以做到时间复杂度O（N）额外空间复杂度O(1) 1、遍历arr之前生成两个变量， l r 初始值 l=0 r=N 2、从左到右遍历arr，arr[l] 3、如果arr[l]=l+1 没有遍历arr[l]之前，arr已经包含的正整数范围是[1,l]，此时出现了arr[l]=l+1的情况，所以arr包含的正整数范围可以扩展到[1,l+1] 即令 l++ 4、...

几种常见模式识别算法整理和总结

大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 时序算法）【图】

原文:（原创）大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 时序算法）前言本篇文章同样是继续微软系列挖掘算法总结，前几篇主要是基于状态离散值或连续值进行推测和预测，所用的算法主要是三种：Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇，所涉及的应用场景在前几篇文章中也有介绍，有兴趣的同学可以点击查看，本篇我们将总结的算法为Micros...

二叉树总结(一)概念和性质【代码】【图】

一、树的概念树是一些点的集合，这个集合可以为空，若不为空，则它是由一个根节点和0个或多个为空的子树组成，且每个子树都被一条来自根节点的有向边相连。树叶：没有儿子的节点；兄弟：具有相同父亲的节点；类似还有祖父和孙子节点。路径：节点n1，n2，n3，...，nk的一个序列，使得对于1 <= i <= k节点ni是ni+1的父亲；路径的长为路径上边的数量，即K+1。深度：某节点的深度为树根到该节点的唯一路径的长度。层次：深度相同的节点...

八大排序算法总结

插入排序1.直接插入排序原理：将数组分为无序区和有序区两个区，然后不断将无序区的第一个元素按大小顺序插入到有序区中去，终于将全部无序区元素都移动到有序区完毕排序。要点：设立哨兵，作为暂时存储和推断数组边界之用。实现：Void InsertSort(Node L[],int length){Int i,j;//分别为有序区和无序区指针for(i=1;i<length;i++)//逐步扩大有序区{j=i+1;if(L[j]<L[i]){L[0]=L[j];//存储待排序元素While(L[0]<L[i])//查找在有序区中...

【总结】排序算法【代码】【图】

排序选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法，而冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法（稳定的排序是指排序前后相同的两个数的相对位置是一致的）一.冒泡排序1.算法描述比较相邻元素，如果第一个比第二个大，交换位置，这样每经过一趟就冒出一个最大的2.代码实现 public static int[] bubbleSort(int arr[]) {int len = arr.length;for (int i = 0; i < len; i++) {for (int j = 0;...

机器学习算法总结(十)——朴素贝叶斯【图】

1、模型的定义　　　朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分裂方法。首先我们来了解下贝叶斯定理和所要建立的模型。对于给定的数据集　　假定输出的类别yi ∈ {c1, c2, ...., ck}，朴素贝叶斯通过训练数据集的来学习联合概率分布P(x|y)。但是直接求联合概率分布P(x|y)一般比较难，因此在这里我们近视的求先验概率分布和条件概率分布来替代它。先验概率分布如下　　对于先验概率的求解，可以根据大数定理认为就是该类别在...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 几种常见模式识别算法整理和总结

几种常见模式识别算法整理和总结

内容导读

内容图文

内容总结

内容备注

内容手机端

【几种常见模式识别算法整理和总结】教程文章相关的互联网学习教程文章

几种常见模式识别算法整理和总结

paxos算法学习总结【图】

C++算法之——常用算法总结

回溯算法的一个总结【图】

基于C语言的算法总结(不定时更新)【代码】

排序算法总结【代码】

排序算法总结：一、基数排序【代码】

机器学习算法总结（二）

算法总结之数组中未出现的最小正整数【代码】

几种常见模式识别算法整理和总结

大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 时序算法）【图】

二叉树总结(一)概念和性质【代码】【图】

八大排序算法总结

【总结】排序算法【代码】【图】

机器学习算法总结(十)——朴素贝叶斯【图】

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程