首页 / 算法 / 机器学习算法篇：最大似然估计证明最小二乘法合理性

机器学习算法篇：最大似然估计证明最小二乘法合理性

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了机器学习算法篇：最大似然估计证明最小二乘法合理性，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5629字，纯文字阅读大概需要9分钟。

内容图文

最小二乘法的核心思想是保证所有数据误差的平方和最小，但我们是否认真思考过为什么数据误差平方和最小便会最优，本文便从最大似然估计算法的角度来推导最小二乘法的思想合理性，下面我们先了解一下最大似然估计和最小二乘法，最后我们通过中心极限定理克制的误差ε服从正态分布来引出最大似然估计和最小二乘法的关系

一、最大似然估计

先从贝叶斯公式说起：

$P\left( W \middle| X \right) = \ \frac{P\left( X \middle| W \right)P(W)}{P(X)}$ P(W∣X)= P(X)P(X∣W)P(W)?

P(W) 先验概率，表示每个类别的概率
P(W|X) 后验概率，表示已知某事X发生的情况下，属于某个类W的概率
P(X|W) 类条件概率，在某个类W的前提下，某事X发生的概率

对于 P(W) 先验概率的估计是简单的，样本信息直接给出，但对于 P(X|W) 类条件概率来说，概率密度函数包含一个随机变量的全部信息，直接求解概率密度无法入手，因此我们将概率密度估计问题转化为参数估计问题，极大似然估计便就是一种参数估计法。

最大似然估计的核心思想是：在给出数据样本下，找出最大可能产生该样本的参数值。最大似然估计提供了一种给定观察数据来评估模型参数的方法，即模型已定，参数未知。通过最大似然估计找到能够使样本出现概率最大的参数值，则称为最大似然估计。

最大似然估计有一个重要的前提假设即：样本之间是独立同分布的，先给出一个一般模型。考虑现有一类样本集D，记作D = { x1,x2,…,xn}，来估计参数 θ，有：

$L\left( \theta \right) = \ P\left( D \middle| \theta \right) = P\left( x1,x2,\ldots,xn \middle| \theta \right) = \ \prod_{i = 1}^{N}{P(xi|\theta)}$ L(θ)= P(D∣θ)=P(x1,x2,…,xn∣θ)= i=1∏N?P(xi∣θ)

其中 P(D|θ) 既是联合概率密度函数，L(θ) 称作样本 D={x1,x2,…,xn} 关于θ的似然函数，对上式取对数可得：

$l\left( \theta \right) = \ lnL\left( \theta \right) = \ \sum_{i = 1}^{N}{lnP(xi|\theta)}$ l(θ)= lnL(θ)= i=1∑N?lnP(xi∣θ)

按照最大似然函数的思想，我们要求的是使得样本出现概率最大的参数θ，因此：

$\theta = arg\operatorname{}{l(\theta)}$ θ=argl(θ)

因此当 ?l(θ)/?θ = 0 成立时l(θ) 取得最大值，解此时便可得到参数 θ

注：这里的参数θ可是实数变量(一个未知参数)，也可以是向量(多个未知参数)

二、最小二乘法(最小平方法)

比如我们要做数据拟合，如下图所示：
机器学习算法篇：最大似然估计证明最小二乘法合理性 - 文章图片

假设我们拟合函数为h_θ(x)，暂先不管h_θ(x) 形式，拟合函数可以是线性，也可非线性，正如上图所示，现在我们需要做的便是选出拟合效果最好的函数，法国数学家勒让德定义，让数据总体误差最小的便是最好的。当然为什么勒让德如此定义我们便认为是合理的呢，下面第三节最大似然估计的角度说明该定义的合理性。

两种定义拟合总体误差：

(1) 误差绝对值之和：

$\operatorname{}{\sum_{i = 1}^{m}{|{y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)|}}$ i=1∑m?∣y(i)? hθ?(x(i))∣

解释：m表示样本点数，(xⁱ, yⁱ) 既是坐标点

(2) 误差平方和最小：

$\operatorname{}{\sum_{i = 1}^{m}{(\ y^{\left( i \right)} - \ h_{\theta}\left( x^{(i)} \right))}^{2}}$ i=1∑m?( y(i)? hθ?(x(i)))2

最小二乘法便是便是采用了保证所有数据误差的平方和最小，这便是最小二乘法优化的核心思想。这里简单解释为什么不去误差绝对值之和最小，主要愿意便是误差绝对值之和最小无法转化为一个可解的寻优问题，无法确定一个合适的寻优的参数估计方程，数学上不易处理。

根据拟合函数 h_θ(x) 定义形式的不同，参数的个数和形式也不同，但参数求解方式相同，都是通过对参数求偏导求解，这里以简单的线性拟合为例作简单说明，则：

$h_{\theta}\left( x \right) = \ a*x + b\ \ \ \ \ \ \theta = \lbrack a,\ b\rbrack$ hθ?(x)= a?x+b θ=[a, b]

优化方程为：

$\operatorname{}{J(\theta)} = \ \operatorname{}{\sum_{i = 1}^{m}{(y^{\left( i \right)} - \ (a*x^{\left( i \right)} + b))}^{2}}$ J(θ)= i=1∑m?(y(i)? (a?x(i)+b))2

对参数a,b求偏导有：

$\frac{\partial J}{\partial a} = - 2\sum_{i = 1}^{m}{x^{\left( i \right)}(y^{\left( i \right)}\ \ (a*x^{\left( i \right)} + b))}$ ?a?J?=?2i=1∑m?x(i)(y(i) (a?x(i)+b))

$\frac{\partial J}{\partial b} = 2\sum_{i = 1}^{m}{(y^{\left( i \right)}\ \left( a*x^{\left( i \right)} + b \right))}\$ ?b?J?=2i=1∑m?(y(i) (a?x(i)+b))

联合上述式子便可求得参数a, b得到最优拟合函数

三、高斯正态分布、最大似然估计、最小二乘法关系

继续以上述数据拟合为例，对每个数据点拟合都会存在误差，我们定义误差为：

$\varepsilon^{(i)} = \ {\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)$ ε(i)= y(i)? hθ?(x(i))

假设当样本数据量足够多的情况下，我们由中心极限定理克制可知误差ε服从正态分布

即ε~N(0, σ²)，因此有：

$P\left( \varepsilon^{\left( i \right)} \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{(\varepsilon^{i})}^{2}}{2\sigma^{2}})$ P(ε(i))= 2π?σ1?exp(?2σ2(εi)2?)

因此我们可得yⁱ 关于xⁱ 的概率密度公式为：

$P\left( y^{\left( i \right)}{|x}^{\left( i \right)};\theta \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})$ P(y(i)∣x(i);θ)= 2π?σ1?exp(?2σ2( y(i)? hθ?(x(i)))2?)

求概率密度问题是不是有想到了最大似然法，这里便可以把求概率密度转化为求参数，因此有最大似然法可得：

$L\left( \theta \right) = \ P\left( y \middle| x;\theta \right) = \ \prod_{i = 1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})}$ L(θ)= P(y∣x;θ)= i=1∏m?2π?σ1?exp(?2σ2( y(i)? hθ?(x(i)))2?)

按照最大似然估计接下来便通过最大化似然函数求参，但通过观察可以看出：

$\operatorname{}{L\left( \theta \right)\ < = > \ \ \operatorname{}{\sum_{i = 1}^{m}{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}}$ L(θ) <=> i=1∑m?( y(i)? hθ?(x(i)))2

右式是啥，不就是最小二乘法嘛，所以从此角度也说明了最小二乘法定义的所有数据误差的平方和最小既是最优的合理性。

内容总结

以上是互联网集市为您收集整理的机器学习算法篇：最大似然估计证明最小二乘法合理性全部内容，希望文章能够帮你解决机器学习算法篇：最大似然估计证明最小二乘法合理性所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/852650.html

来源：【匿名】

更多 ►

【机器学习算法篇：最大似然估计证明最小二乘法合理性】教程文章相关的互联网学习教程文章

机器学习---算法学习3

词向量:将词语"嵌入"到一个N维空间，使得词语相近的词语放到相近的位置。机器翻译类不类似于矩阵的变换？谷歌出品的一个工具Word2Vec，用于入门。句向量？段向量？文档向量?很多事情向量化，可以解决很多问题。传统的one-hot 编码的原来是，有多少个字就有多少个维度.科[1,0,0,0,0,0,0,0]学[0,1,0,0,0,0,0,0]one hot -- >词向量表(全连接的大矩阵)-->输出(该词的矩阵)Embedding层就是one hot 层。时间序列:每次作预测都是一个序列...

机器学习之聚类算法【图】

（一）K-means提到k-means不得不说的许高建老师，他似乎比较偏爱使用这种聚类方法，在N个不同场合听到他提起过，k-means通过设置重心和移动中心两个简答的步骤，就实现了数据的聚类。下面就来介绍下k-means算法。一、数值属性距离度量度量数值属性相似度最简单的方法就是计算不同数值间的“距离”，如果两个数值之间“距离”比较大，就可以认为他们的差异比较大，而相似度较低；换而言之，如果两数值之间“距离”较小，可认为他...

# 机器学习算法总结-第四天(SKlearn/数据处理and特征工程)【图】

总结：量纲化（归一化，标准化）缺失值处理（补0、均值、中值、众数、自定义）编码/哑变量：忽略数字中自带数学性质（文字->数值类型）连续特征离散化（二值化/分箱处理）原文：https://www.cnblogs.com/afanti/p/10881435.html

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类（类别体系是自动构建的）。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。本文要介绍一种称为K-均值（K-means）聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。在介绍K-均值之前，先讨论一席簇识别（cluster identification）。簇识别给出聚类结果的含义。假定有一些...

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

摘要：Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...

机器学习算法学习---模型融合和提升的算法（六）

XGBoost原理：https://www.jianshu.com/p/7467e616f227 python实现：https://www.cnblogs.com/harekizgel/p/7683803.html 算法优势和调参：http://www.cnblogs.com/mfryf/p/6293814.html 原文：https://www.cnblogs.com/zhenpengwang/p/10898637.html

机器学习——03K均值算法【代码】【图】

1）. 扑克牌手动演练k均值聚类过程：>30张牌，3类图1 统计表格图2 第一轮实际情况图3 第二轮实际情况2）. *自主编写K-means算法，以鸢尾花花瓣长度数据做聚类，并用散点图显示。（加分题）ps：之前人工智能老师教过这个算法，所以代码基本一样。源代码： # 导入数据集 from sklearn.datasets import ...

漫谈机器学习经典算法—人工神经网络

更新：文章迁移到了这里。http://lanbing510.info/2014/11/07/Neural-Network.html，有对应的PPT链接。注：整理自向世明老师的PPT 看不到图片的同学能够直接打开链接：https://app.yinxiang.com/shard/s31/sh/61392246-7de4-40da-b2fb-ccfd4f087242/259205da4220fae3内容提要1 发展历史 2 前馈网络（单层感知器，多层感知器。径向基函数网络RBF） 3 反馈网络（Hopfield网络。联想存储网络，SOM。Boltzman及受限的玻尔兹曼机RBM，D...

机器学习 - 相关标签

机器学习分类机器学习和深度学习机器学习模型机器学习实战机器学习算法

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 机器学习算法篇：最大似然估计证明最小二乘法合理性

机器学习算法篇：最大似然估计证明最小二乘法合理性

内容导读

内容图文

一、最大似然估计

二、最小二乘法(最小平方法)

三、高斯正态分布、最大似然估计、最小二乘法关系

内容总结

内容备注

内容手机端

【机器学习算法篇：最大似然估计证明最小二乘法合理性】教程文章相关的互联网学习教程文章

机器学习---算法学习3

机器学习之聚类算法【图】

# 机器学习算法总结-第四天(SKlearn/数据处理and特征工程)【图】

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

机器学习算法学习---模型融合和提升的算法（六）

机器学习——03K均值算法【代码】【图】

漫谈机器学习经典算法—人工神经网络

机器学习实战（2）—— k-近邻算法【代码】【图】

机器学习/数据挖掘/算法岗位面试题汇总

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT【图】

机器学习-EM算法-pLSA模型笔记【图】

机器学习十大算法之C4.5【图】

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）【代码】【图】

机器学习算法综述

机器学习 - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程