首页 / 算法 / 第七篇：Logistic回归分类算法原理分析与代码实现

第七篇：Logistic回归分类算法原理分析与代码实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了第七篇：Logistic回归分类算法原理分析与代码实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6112字，纯文字阅读大概需要9分钟。

内容图文

前言

本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码，Python代码实现。

(说明：从本文开始，将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数，以用于分类。)

算法原理

首先要提到的概念是回归。

对于回归这个概念，在以后的文章会有系统而深入的学习。简单的说，回归就是用一条线对N多数据点进行一个拟合，这个拟合的过程就叫做回归。

Logistic回归分类算法就是对数据集建立回归公式，以此进行分类。

而至于如何寻找最佳回归系数，或者说是分类器的训练，就需要使用到最优化算法了。

回归分类器的形式

基本形式是用每个特征都乘以一个回归系数，然后把所有的结果值相加。

这样算出的很多结果都是连续的，不利于分类，故可以将结果再带入到一个Sigmoid函数以得到一些比较离散的分类结果。

Sigmoid函数的轮廓如下：

技术分享

这样，计算的结果会是一个0-1的值。进而0.5以上归为一类，以下归为一类即可。(一般的逻辑回归只能解决两个分类的问题)

接下来的工作重点就转移到了最佳回归系数的确定了。

最佳回归系数的确定

确定最佳回归系数的过程，也就是对数据集进行训练的过程。

求最佳回归系数的步骤如下：

1. 列出分类函数：技术分享

(θ 指回归系数，在实践中往往会再对结果进行一个Sigmoid转换)

2. 给出分类函数对应的错误估计函数：

技术分享

(m为样本个数)

只有当某个θ向量使上面的错误估计函数J(θ)取得最小值的时候，这个θ向量才是最佳回归系数向量。

3. 采用梯度下降法或者最小二乘法求错误函数取得最小值的时候θ的取值：

技术分享

为表述方便，上式仅为一个样本的情况，实际中要综合多个样本的情况需要进行一个求和 (除非你使用后面会介绍的随机梯度上升算法)，具体请参考下面的代码实现部分。

将步骤 2 中的错误函数加上负号，就可以把问题转换为求极大值，梯度下降法转换为梯度上升法。

更详尽的推导部分，在以后专门分析回归的文章中给出。

基于梯度上升法的最佳回归参数拟合

梯度上升法求最大值的核心思想是将自变量沿着目标函数的梯度方向移动，一直移动到指定的次数或者说某个允许的误差范围。

基于梯度上升法的分类伪代码：

            1
            每个回归系数初始化为1

            2
            重复R次:

            3
                 计算整个数据集的梯度

            4      使用 alpha * gradient 更新回归系数向量
5 返回回归系数

下面给出完整的实现及测试代码(用到的数据集文件共 4 列，前 3 列为特征，最后一列为分类结果)：

             1
            #
            !/usr/bin/env python
             2
            #
             -*- coding:UTF-8 -*-
             3
             4
            ‘‘‘
             5
            Created on 2014-12-29

             6
             7
            @author: fangmeng

             8
            ‘‘‘
             9
            10
            import
             numpy

            11
            12
            #
            =====================================
            13
            #
             输入：
            14
            #
                    空
            15
            #
             输出:
            16
            #
                    dataMat: 测试数据集
            17
            #
                    labelMat: 测试分类标签集
            18
            #
            =====================================
            19
            def
             loadDataSet():

            20
            ‘
            创建测试数据集，分类标签集并返回。
            ‘
            21
            22
            #
             测试数据集
            23     dataMat = []; 
24# 测试分类标签集25     labelMat = []
26# 文本数据源27     fr = open(‘/home/fangmeng/testSet.txt‘)
2829# 载入数据30for line in fr.readlines():
31         lineArr = line.strip().split()
32         dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
33         labelMat.append(int(lineArr[2]))
3435return dataMat,labelMat
363738#=====================================39# 输入：40#        inX: 目标转换向量41# 输出:42#       1.0/(1+numpy.exp(-inX)): 转换结果43#=====================================44def sigmoid(inX):
45‘sigmoid转换函数‘4647return 1.0/(1+numpy.exp(-inX))
4849#=====================================50# 输入：51#        dataMatIn: 数据集52#        classLabels: 分类标签集53# 输出:54#        weights: 最佳拟合参数向量55#=====================================56def gradAscent(dataMatIn, classLabels):
57‘基于梯度上升法的logistic回归分类器‘5859# 将数据集，分类标签集存入矩阵类型。 60     dataMatrix = numpy.mat(dataMatIn)
61     labelMat = numpy.mat(classLabels).transpose()
6263# 上升步长度64     alpha = 0.001
65# 迭代次数66     maxCycles = 500
67# 初始化回归参数向量68     m,n = numpy.shape(dataMatrix)
69     weights = numpy.ones((n,1))
7071# 对回归系数进行maxCycles次梯度上升72for k in range(maxCycles):
73         h = sigmoid(dataMatrix*weights)
74         error = (labelMat - h) 
75         weights = weights + alpha * dataMatrix.transpose()* error
7677return weights
7879def test():
80‘测试‘8182     dataArr, labelMat = loadDataSet()
83print gradAscent(dataArr, labelMat)
8485if__name__ == ‘__main__‘:
86     test()

测试结果：

技术分享

拟合结果展示

可使用matplotlib画决策边界，用作分析拟合结果是否达到预期。

绘制及测试部分代码如下所示:

             1
            #
            ======================================
             2
            #
                输入:
             3
            #
                        weights: 回归系数向量
             4
            #
                输出:
             5
            #
                        图形化的决策边界演示
             6
            #
            ======================================
             7
            def
             plotBestFit(weights):

             8
            ‘
            决策边界演示
            ‘
             9
            10
            import
             matplotlib.pyplot as plt

            11
            #
             获取数据集 分类标签集
            12     dataMat,labelMat=loadDataSet()
13     dataArr = numpy.array(dataMat)
1415# 两种分类下的两种特征列表16     xcord1 = []; ycord1 = []
17     xcord2 = []; ycord2 = []
18for i in range(numpy.shape(dataArr)[0]):
19if int(labelMat[i])== 1:
20             xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
21else:
22             xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
2324     fig = plt.figure()
25     ax = fig.add_subplot(111)
26     ax.scatter(xcord1, ycord1, s=30, c=‘red‘, marker=‘s‘)
27     ax.scatter(xcord2, ycord2, s=30, c=‘green‘)
2829# 绘制决策边界30     x = numpy.arange(-3.0, 3.0, 0.1)
31     y = (-weights[0]-weights[1]*x)/weights[2]
32    ax.plot(x, y)
3334     plt.xlabel(‘X1‘); plt.ylabel(‘X2‘);
35    plt.show()
3637def test():
38‘测试‘3940     dataArr, labelMat = loadDataSet()
41     weights = gradAscent(dataArr, labelMat)
42     plotBestFit(weights.getA())

测试结果：

技术分享

更好的求最值方法 - 随机梯度上升

Logistic回归的本质其实就是求拟合参数，而求拟合参数最核心的就是求错误估计函数的最小值。

仔细分析上面的代码，会发现该分类的效率做多的耗费也是在求最值上面。由于每次都要用所有数据来计算梯度，导致数据集非常大的时候，该算法很不给力。

实践表明，每次仅仅用一个样本点来更新回归系数，当所有样本算完，也能达到相似的效果(仅仅是相似，或者说接近)。

由于可以在每个样本到达的时候对分类器进行增量式更新，因此随机梯度上升算法其实是一个在线学习算法。

基于随机梯度上升的分类伪代码：

            1
            所有回归系数初始化为1

            2
            对数据集中的每个样本:

            3
                计算该样本的梯度

            4     使用 alpha * gradient 更新回归系数值
5 返回回归系数值

请对比上面的基本梯度上升算法进行理解学习。

优化之后的分类算法函数如下：

             1
            #
            =====================================
             2
            #
             输入：
             3
            #
                    dataMatIn: 数据集(注意是向量类型)
             4
            #
                    classLabels: 分类标签集
             5
            #
             输出:
             6
            #
                    weights: 最佳拟合参数向量
             7
            #
            =====================================
             8
            def
             stocGradAscent0(dataMatrix, classLabels):

             9
            ‘
            基于随机梯度上升法的logistic回归分类器
            ‘
            10
            11     m,n = numpy.shape(dataMatrix)
12# 上升步长度13     alpha = 0.01
14# 初始化回归参数向量15     weights = numpy.ones(n)
1617# 对回归系数进行样本数量次数的梯度上升，每次上升仅用一个样本。18for i in range(m):
19         h = sigmoid(sum(dataMatrix[i]*weights))
20         error = classLabels[i] - h
21         weights = weights + alpha * error * dataMatrix[i]
22return weights

你也许会疑惑 "不是说随机梯度上升算法吗？随机呢？"，不用急，很快就会提到这个。

分析优化后的代码可以看到两个区别：一个是当前分类结果变量h和误差变量都是数值类型(之前为向量类型)，二是无矩阵转换过程，数据集为numpy向量的数组类型。

测试结果：

技术分享

对比优化前的算法结果，可以看出分类错误率更高了。

优化后的效果反而更差了？这样说有点不公平，因为优化后的算法只是迭代了100次，而优化前的足足有500次。

那么接下来可以进一步优化，理论依据为：增加迭代计算的次数，当达到一个接近收敛或者已经收敛的状态时，停止迭代。

那么如何做到这点呢？

第一是要动态的选定步长，第二，就是每次随机的选定样本，这就是为什么叫做随机梯度上升算法了。

最终修改后的分类器如下：

             1
            #
            =====================================
             2
            #
             输入：
             3
            #
                    dataMatIn: 数据集(注意是向量类型)
             4
            #
                    classLabels: 分类标签集
             5
            #
             输出:
             6
            #
                    weights: 最佳拟合参数向量
             7
            #
            =====================================
             8
            def stocGradAscent1(dataMatrix, classLabels, numIter=150):
 9‘基于随机梯度上升法的logistic回归分类器‘1011     m,n = numpy.shape(dataMatrix)
12     weights = numpy.ones(n)
1314# 迭代次数控制15for j in range(numIter):
16# 样本选择集17         dataIndex = range(m)
18# 随机选取样本遍历一轮19for i in range(m):
20# 动态修正步长21             alpha = 4/(1.0+j+i)+0.0001
22# 随机选取变量进行梯度上升23             randIndex = int(numpy.random.uniform(0,len(dataIndex)))
24             h = sigmoid(sum(dataMatrix[randIndex]*weights))
25             error = classLabels[randIndex] - h
26             weights = weights + alpha * error * dataMatrix[randIndex]
27# 从选择集中删除已经使用过的样本28del(dataIndex[randIndex])
29return weights

运行结果：

技术分享

这次，和最原始的基于梯度上升法分类器的结果就差不多了。但是迭代次数大大的减少了。

网上也有一些非常严格的证明随机梯度上升算法的收敛速度更快(相比基础梯度上升算法)的证明，有兴趣的读者可以查找相关论文。

小结

1. 逻辑回归的计算代价不高，是很常用的分类算法。集中基于随机梯度上升的逻辑回归分类器能够支持在线学习。

2. 但逻辑回归算法缺点很明显 - 一般只能解决两个类的分类问题。

3. 另外逻辑回归容易欠拟合，导致分类的精度不高。

原文：http://www.cnblogs.com/muchen/p/6296957.html

内容总结

以上是互联网集市为您收集整理的第七篇：Logistic回归分类算法原理分析与代码实现全部内容，希望文章能够帮你解决第七篇：Logistic回归分类算法原理分析与代码实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1295589.html

来源：【匿名】

【上一篇】二叉树代码【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【第七篇：Logistic回归分类算法原理分析与代码实现】教程文章相关的互联网学习教程文章

第七篇：Logistic回归分类算法原理分析与代码实现【代码】【图】

前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码，Python代码实现。 (说明：从本文开始，将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数，以用于分类。)算法原理首先要提到的概念是回归。对于回归这个概念，在以后的文章会有系统而深入的学习。简单的说，回归就是用一条线对N多数据点进行一个拟合，这个拟合的过程就叫做回归。 Logistic...

动态规划之最大公共子串算法代码实现(使用JavaScript实现)【代码】【图】

问题描述最大公共子串问题:要求在两个字符串之间找出最大的公共字符串.并且输出其所在位置.通过递推可以分析得出递推公式(博主是跟着学的,没分析) : c[i,j] = c[i-1,j-1] + 1以下图示列出了过程.文中的代码使用的是动态规划求解.其中可能有点难以理解的是下标问题: arr[i] == 0 arr[j] == 0的情况是需要进行列出来的,并且都是为0.在进行字符对比的时候,按照下标从1开始进行对比.而不是从0开始进行对比.图析代码实现 let lis...

103-算法应用【字符串反转】代码实现【代码】

字符串反转本文链接：https://www.cnblogs.com/cheng2839 介绍将字符串倒序组织分析我们都知道StringBuilder类有个reverse()方法，可以将字符串反转，但这里考察的是算法实现。所以我们采取链表存储字符串，然后将链表反转。实现下面是用java实现算法： //本文链接https://www.cnblogs.com/cheng2839publicclass $Convert {//反转方法publicstatic Entry convert(Entry root) {if (root == null)returnnull;Entry i = root, j = ...

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

一、环境：Python 3.7.4Pycharm Community 2019.3二、问题：对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。三、理论推导　此处依照我个人理解所写，错误之处欢迎指出 K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值选取聚类中心：　　聚类中心的选取可以选择随机选取、人工选取。K-means+...

LeetCode算法题-C#代码实现-栈（一）【代码】

20. Valid Parentheses有效的括号解题思路将括号比较后者后，不同的入栈，相同的出栈，最后字符串遍历结束后栈为空则匹配成功。publicbool IsValid(string s) {//声明字典，括号匹配键值对Dictionary<char, char> dict = new Dictionary<char, char>();dict.Add(‘)‘, ‘(‘);dict.Add(‘]‘, ‘[‘);dict.Add(‘}‘, ‘{‘);Stack<char> stack = new Stack<char>();//遍历字符s，直到遍历s所有字符结束循环for (int i = 0; i < s...

deep learning 自编码算法详细理解与代码实现（超详细）【代码】【图】

在有监督学习中，训练样本是有类别标签的。现在假设我们只有一个没有带类别标签的训练样本集合，其中。自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值，比如。下图是一个自编码神经网络的示例。通过训练，我们使输出接近于输入。当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。举例来说，假设某个自编码神经网络的输入是...

【字符串处理算法】字符串包含的算法设计及C代码实现【图】

一、需求描述给定一个长字符串和一个短字符串，编写程序判断短字符串中的所有字符是否都在长字符串中。如果是，则长字符串包含短字符串；反之，不包含。为了尽量包含大多数情况，字符串中可以包含大小写英文字母、数字和各种标点符号，并且区分大小写字母。下面举几个例子予以说明：1.如果长字符串是“ABCDE”，短字符串是“ADC”，那么短字符串中的所有字符都在长字符串中，即长字符串包含了短字符串。2.如果长字符串是“ABCDE”，...

八大经典排序算法的代码实现【代码】

冒泡排序： 1//冒泡排序2//时间复杂度为O(N^2)，空间复杂度为O（N） 3publicclass BubbleSort {4publicstaticvoid bubbleSort(int[] arr) {5if (arr.length == 0 || arr.length == 1) {6return;7 } else {8// 随着每轮比较的进行，都有一个大数沉到后面排好序，因此外层的循环长度应该递减 9for (int end = arr.length - 1; end > 0; end--) { 10for (int i = 0; i < end; i++) { 11if (arr[i] > arr[i + 1]) {...

计数排序Java代码实现【代码】

结论：由于计数排序不是基于比较的排序，所以时间复杂度可以突破O(nlgn);计数排序时间复杂度为O(n),额外空间复杂度为O(n);Java实现代码如下： 1package com.cmbc.test1;2 3publicclass CountSorting {4 5publicstaticvoid countSort(int[] arr){6if(arr==null||arr.length<2){7return;8 }9int max = Integer.MIN_VALUE; 10for(int i = 0 ;i<arr.length;i++){ 11 max = Math.max(max, arr[i]); 12 } 13in...

排序算法——快速排序的图解、代码实现以及时间复杂度分析

在C++的泛型排序中，拷贝对象需要很大的开销，而比较对象常常是相对省时的（编译器的自动优化）。在这种情况下，如果我们能够使用更少的数据移动，那么有理由让一个算法多使用一些比较。而快速排序（Quicksort）满足了这种特点，实际上C++中通常所使用的排序例程就是使用的快速排序。快速排序也是一种分治的递归算法。它的平均运行时间是O(NlogN)，最坏情形性能为O(N2)。将数组S排序的基本算法由下列简单的四步组成：如果S中元素个...

深入一致性哈希(Consistent Hashing)算法原理，并附100行代码实现【代码】【图】

本文为实现分布式任务调度系统中用到的一些关键技术点分享——Consistent Hashing算法原理和Java实现，以及效果测试。　背景介绍　　一致性Hashing在分布式系统中经常会被用到，用于尽可能地降低节点变动带来的数据迁移开销。Consistent Hashing算法在1997年就在论文Consistenthashing and random trees中被提出。　　先来简单理解下Hash是解决什么问题。假设一个分布式任务调度系统，执行任务的节点有n台机器，现有m个job在这n台...

PCB 挺有意思的基数排序----C#代码实现【代码】【图】

今天在头条看一个很有意思的排序算法【基数排序】，以前所学习的排序算法都是基于数值对比的方式排序的,而这个算法挺有意思的非常独特。但从网上看到的例子通常是对个位,十位处理，并转为对应的桶索引的方式实现，这里将此算法用C#实现，并以位运算的新方式实现。一.代码实现staticvoid Main(string[] args){//待排序数组List<int> arrlist = new List<int>() { 72, 11, 82, 32, 44, 13, 17, 95, 54, 28, 79, 56 };int Number = 3...

分析 - 相关标签

分析工具

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 第七篇：Logistic回归分类算法原理分析与代码实现

第七篇：Logistic回归分类算法原理分析与代码实现

内容导读

内容图文

前言

算法原理

回归分类器的形式

最佳回归系数的确定

基于梯度上升法的最佳回归参数拟合

拟合结果展示

更好的求最值方法 - 随机梯度上升

小结

内容总结

内容备注

内容手机端

【第七篇：Logistic回归分类算法原理分析与代码实现】教程文章相关的互联网学习教程文章

第七篇：Logistic回归分类算法原理分析与代码实现【代码】【图】

动态规划之最大公共子串算法代码实现(使用JavaScript实现)【代码】【图】

103-算法应用【字符串反转】代码实现【代码】

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

LeetCode算法题-C#代码实现-栈（一）【代码】

deep learning 自编码算法详细理解与代码实现（超详细）【代码】【图】

【字符串处理算法】字符串包含的算法设计及C代码实现【图】

八大经典排序算法的代码实现【代码】

计数排序Java代码实现【代码】

排序算法——快速排序的图解、代码实现以及时间复杂度分析

深入一致性哈希(Consistent Hashing)算法原理，并附100行代码实现【代码】【图】

PCB 挺有意思的基数排序----C#代码实现【代码】【图】

Apriori 关联分析算法原理分析与代码实现【代码】【图】

几种简单的负载均衡算法及其Java代码实现【代码】

PHP四种基本排序算法的代码实现

分析 - 相关标签

算法 - 最新教程

算法 - 最热教程