首页 / 算法 / 机器学习算法系列（1）逻辑回归

机器学习算法系列（1）逻辑回归

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了机器学习算法系列（1）逻辑回归，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含10243字，纯文字阅读大概需要15分钟。

内容图文

1、逻辑回归算法原理

（1）线性回归预测函数：线性回归模型的输出值y是连续型变量，值域为R
$y = Xθ$ y=Xθ
（2）sigmoid函数：
$g\left ( z \right )=\frac{1}{1+e^{-z}}$ g(z)=1+e?z1?
（3）逻辑回归预测函数：逻辑回归的输出值y是离散型变量，值域为{0，1}
$h_{\theta }\left ( X \right )=g\left ( X\theta \right )=\frac{1}{1+e^{-X\theta }}$ hθ?(X)=g(Xθ)=1+e?Xθ1?
逻辑回归模型是在线性回归模型输出值y经过sigmoid变换得到的，即通过将线性回归原本的值域映射到{0，1}区间内，当取值大于临界值（例如0.5）时为一类，小于临界值时为另一类，从而达到分类的目的。

2、逻辑回归算法实现

信用卡欺诈案例：

#导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")#忽略警告

%matplotlib inline

#读取数据
data = pd.read_csv("creditcard.csv")
pd.set_option("display.max_columns",None)#显示所有列
print("数据结构：",data.shape)
data.head()

机器学习算法系列（1）逻辑回归 - 文章图片
分析：贷款金额"Amount"需要做数据标准化。

#标签分布
sns.countplot( x = "Class",data = data,linewidth = 2)#seaborn可视化库中的柱状图
plt.title("Fraud class histogram")
plt.xlabel("Class")
plt.ylabel("Frequency")
plt.show()

机器学习算法系列（1）逻辑回归 - 文章图片
分析：正负例样本数相差较大，需要使用下采样或者过采样处理数据。

2.1、数据预处理

2.1.1 数据标准化

from sklearn.preprocessing import StandardScaler
data["normAmount"] = StandardScaler().fit_transform(data["Amount"].values.reshape(-1,1))#数据标准化
data2 = data.drop(["Time","Amount"],axis = 1)#删除列
data2.head()

机器学习算法系列（1）逻辑回归 - 文章图片

2.2、挖掘建模

2.2.1 下采样方案
（1）数据下采样

X = data2.ix[:,data2.columns != "Class"]#取特征值
y = data2.ix[:,data2.columns == "Class"]#取标签值

number_records_fraud = len(data2[data2.Class == 1])#欺诈样本数量

fraud_indices = np.array(data2[data2.Class == 1].index)#欺诈样本索引
normal_indices = data2[data2.Class == 0].index#正常样本索引

random_normal_indices = np.random.choice(normal_indices,number_records_fraud,replace = False)#随机选择和异常样本数量一致的正常样本
random_normal_indices = np.array(random_normal_indices)#下采样正常样本索引

under_sample_indices = np.concatenate([fraud_indices,random_normal_indices])#数据合并

under_sample_data = data2.iloc[under_sample_indices,:]#下采样样本
X_under_sample = under_sample_data.ix[:,under_sample_data.columns != "Class"]#下采样样本特征
y_under_sample = under_sample_data.ix[:,under_sample_data.columns == "Class"]#下采样样本标签

print("正常样本比例:",len(under_sample_data[under_sample_data.Class == 0])/len(under_sample_data))
print("异常样本比例:",len(under_sample_data[under_sample_data.Class == 1])/len(under_sample_data))
print("下采样总体样本数量:",len(under_sample_data))

索引使用参考：https://blog.csdn.net/qq1483661204/article/details/77587881
机器学习算法系列（1）逻辑回归 - 文章图片
（2）数据集划分

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3,random_state = 0)
print("原始训练集包含样本数:",X_train.shape[0])
print("原始测试集包含样本数:",X_test.shape[0])
print("原始样本总数:",X.shape[0])

X_train_undersample,X_test_undersample,y_train_undersample,y_test_undersample = train_test_split(X_under_sample,y_under_sample,test_size = 0.3,random_state = 0)
print("下采样训练集包含样本数:",X_train_undersample.shape[0])
print("原始训练集包含样本数:",X_test_undersample.shape[0])
print("原始训练集包含样本数:",under_sample_data.shape[0])

机器学习算法系列（1）逻辑回归 - 文章图片
（3）评估标准：召回率

* Recall = TP/(TP+FN)
* 召回率 = 正确判断异常样本/所有异常样本

（4）基础模型

#导入库
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,recall_score,classification_report

#基础模型构建
lr = LogisticRegression(C = 0.1, penalty = "l1",solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample)
y_pred_undersample = lr.predict(X_test_undersample)

print("Recall Score:",recall_score(y_test_undersample,y_pred_undersample))

机器学习算法系列（1）逻辑回归 - 文章图片
（5）调参（正则化惩罚项）
逻辑回归Sklearn参数:

分析：需要调的参数只有C、阈值。

#正则化惩罚项调参
parameters = {'C':[0.01,0.1,1,10,100]}

%%time

grid = GridSearchCV(lr,param_grid = parameters,scoring = "recall",cv = 5)
grid.fit(X_train_undersample,y_train_undersample)

means = grid.cv_results_['mean_test_score']
stds = grid.cv_results_['std_test_score']
params = grid.cv_results_['params']
 
for mean,std,param in zip(means,stds,params):
    print("mean:%f ,std:%f ,param:%r" % (mean,std,param))
print("*******************************************************************")
print('Best param: {} using {}'.format(grid.best_score_, grid.best_params_))
print("*******************************************************************")

机器学习算法系列（1）逻辑回归 - 文章图片
分析：调参三步走（1）需要调的参数写成字典的形式；（2）网格搜索，交叉验证；（3）输出结果
（6）混淆矩阵
下采样样本混淆矩阵：

#混淆矩阵模板，使用时传入参数即可
def plot_confusion_matrix(cm,classes,title = "Confusion matrix",cmap = plt.cm.Blues):
    plt.imshow(cm,interpolation = "nearest",cmap = cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks,classes,rotation = 0)
    plt.yticks(tick_marks,classes)
    
    thresh = cm.max()/2
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],horizontalalignment="center",color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel("True label")
    plt.xlabel("Predicted label")

import itertools
lr = LogisticRegression(C = 0.01, penalty = "l1",solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample)
y_pred_undersample = lr.predict(X_test_undersample)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test_undersample,y_pred_undersample)
np.set_printoptions(precision = 2)

print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0] + cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix,classes=class_names,title="Confusion matrix")
plt.show()

机器学习算法系列（1）逻辑回归 - 文章图片
全样本混淆矩阵：

lr = LogisticRegression(C = 0.01, penalty = "l1",solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample)
y_pred = lr.predict(X_test)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test,y_pred)
np.set_printoptions(precision = 2)

print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0] + cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix,classes=class_names,title="Confusion matrix")
plt.show()

机器学习算法系列（1）逻辑回归 - 文章图片
分析：右上角FP=10105，本来为负例被判断为正例的样本，统计学上第二类错误，“纳伪”，左下角TN=12，本来为正例被判断为负例的样本，统计学上第一类错误，“弃真”。可见，相对于下采样样本，全样本的Recall值略微下降，但FP大幅度增加，说明下采样方法存在一定缺陷。
混淆矩阵参考：https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839
（7）调参（阈值）

lr = LogisticRegression(C = 0.01, penalty = "l1",solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample.values.ravel())
y_pred_undersample = lr.predict_proba(X_test_undersample.values)

thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]
plt.figure(figsize = (10,10))
j = 1
for i in thresholds:
    y_test_predictions_high_recall = y_pred_undersample[:,1] > i
    
    plt.subplot(3,3,j)
    j += 1
    cnf_matrix = confusion_matrix(y_test_undersample,y_test_predictions_high_recall)
    np.set_printoptions(precision = 2)
    print("给定阈值:",i,"时测试集召回率",cnf_matrix[1,1]/(cnf_matrix[1,0] + cnf_matrix[1,1]))
    class_names = [0,1]
    plot_confusion_matrix(cnf_matrix,classes = class_names,title ="Threshold >= %s"%i)

机器学习算法系列（1）逻辑回归 - 文章图片
2.2.2 过采样方案

#导入库
import pandas as pd
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

#导入数据
credit_cards = pd.read_csv("creditcard.csv")

columns = credit_cards.columns
# The labels are in the last column ("Class"). Simply remove it to obtain features columns
features_columns = columns.delete(len(columns)-1)

features = credit_cards[features_columns]
labels = credit_cards["Class"]

#数据集划分
features_train, features_test, labels_train, labels_test = train_test_split(features,labels,test_size = 0.2,random_state = 0)

#使用SMOTE进行过采样
oversampler = SMOTE(random_state = 0)
os_features,os_labels = oversampler.fit_sample(features_train,labels_train)#基于SMOTE算法进行样本生成，正例、负例一样多

len(os_labels[os_labels == 1])

机器学习算法系列（1）逻辑回归 - 文章图片

#转换格式
os_features = pd.DataFrame(os_features)
os_labels = pd.DataFrame(os_labels)

#调参
%%time

grid = GridSearchCV(lr,param_grid = parameters,scoring = "recall",cv = 5)
grid.fit(os_features,os_labels)

#输出调参结果
means = grid.cv_results_['mean_test_score']
stds = grid.cv_results_['std_test_score']
params = grid.cv_results_['params']
 
for mean,std,param in zip(means,stds,params):
    print("mean:%f ,std:%f ,param:%r" % (mean,std,param))
print("*******************************************************************")
print('Best param: {} using {}'.format(grid.best_score_, grid.best_params_))
print("*******************************************************************")

机器学习算法系列（1）逻辑回归 - 文章图片

#画出混淆矩阵
lr = LogisticRegression(C = 100, penalty = 'l1',solver = "liblinear")
lr.fit(os_features,os_labels.values.ravel())
y_pred = lr.predict(features_test.values)

# Compute confusion matrix
cnf_matrix = confusion_matrix(labels_test,y_pred)
np.set_printoptions(precision = 2)

print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0] + cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix,classes=class_names,title = "Confusion matrix")
plt.show()

机器学习算法系列（1）逻辑回归 - 文章图片
分析：过采样方法Rcall值有所降低，但是TN大幅度减少。

三、逻辑回归总结

主要知识点：

（1）数据标准化
（2）数据采样方法
（3）逻辑回归调参
（4）混淆矩阵
逻辑回归优缺点：

优点：
（1）预测结果是界于0和1之间的概率；
（2）可以适用于连续性和类别性自变量；
（3）容易使用和解释；
缺点：
（1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。?需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；
（2）预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着?log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

内容总结

以上是互联网集市为您收集整理的机器学习算法系列（1）逻辑回归全部内容，希望文章能够帮你解决机器学习算法系列（1）逻辑回归所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/639915.html

来源：【匿名】

【上一篇】暴力匹配与KMP算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【机器学习算法系列（1）逻辑回归】教程文章相关的互联网学习教程文章

机器学习之聚类算法【图】

（一）K-means提到k-means不得不说的许高建老师，他似乎比较偏爱使用这种聚类方法，在N个不同场合听到他提起过，k-means通过设置重心和移动中心两个简答的步骤，就实现了数据的聚类。下面就来介绍下k-means算法。一、数值属性距离度量度量数值属性相似度最简单的方法就是计算不同数值间的“距离”，如果两个数值之间“距离”比较大，就可以认为他们的差异比较大，而相似度较低；换而言之，如果两数值之间“距离”较小，可认为他...

# 机器学习算法总结-第四天(SKlearn/数据处理and特征工程)【图】

总结：量纲化（归一化，标准化）缺失值处理（补0、均值、中值、众数、自定义）编码/哑变量：忽略数字中自带数学性质（文字->数值类型）连续特征离散化（二值化/分箱处理）原文：https://www.cnblogs.com/afanti/p/10881435.html

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类（类别体系是自动构建的）。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。本文要介绍一种称为K-均值（K-means）聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。在介绍K-均值之前，先讨论一席簇识别（cluster identification）。簇识别给出聚类结果的含义。假定有一些...

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

摘要：Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...

机器学习算法学习---模型融合和提升的算法（六）

XGBoost原理：https://www.jianshu.com/p/7467e616f227 python实现：https://www.cnblogs.com/harekizgel/p/7683803.html 算法优势和调参：http://www.cnblogs.com/mfryf/p/6293814.html 原文：https://www.cnblogs.com/zhenpengwang/p/10898637.html

机器学习——03K均值算法【代码】【图】

1）. 扑克牌手动演练k均值聚类过程：>30张牌，3类图1 统计表格图2 第一轮实际情况图3 第二轮实际情况2）. *自主编写K-means算法，以鸢尾花花瓣长度数据做聚类，并用散点图显示。（加分题）ps：之前人工智能老师教过这个算法，所以代码基本一样。源代码： # 导入数据集 from sklearn.datasets import ...

漫谈机器学习经典算法—人工神经网络

更新：文章迁移到了这里。http://lanbing510.info/2014/11/07/Neural-Network.html，有对应的PPT链接。注：整理自向世明老师的PPT 看不到图片的同学能够直接打开链接：https://app.yinxiang.com/shard/s31/sh/61392246-7de4-40da-b2fb-ccfd4f087242/259205da4220fae3内容提要1 发展历史 2 前馈网络（单层感知器，多层感知器。径向基函数网络RBF） 3 反馈网络（Hopfield网络。联想存储网络，SOM。Boltzman及受限的玻尔兹曼机RBM，D...

机器学习实战（2）—— k-近邻算法【代码】【图】

老板：来了，老弟！我：来了来了。老板：今天你要去看看KNN了，然后我给你安排一个工作！我：好嘞！就是第二章吗？老板：对！去吧！可恶的老板又给我安排任务了！《机器学习实战》这本书中的第二章为我们介绍了K-近邻算法，这是本书中第一个机器学习算法，它非常有效而且易于掌握，所以可以算是入门级算法了。那我们现在就一起去学习一下！2.1 k-近邻算法概述简单的说，k-近邻算法采用测量不同特征值之间的距离进行分类。其工作原理...

机器学习/数据挖掘/算法岗位面试题汇总

1、过拟合和欠拟合怎么判断，如何解决？答：主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低，但是测试误差较高，过拟合的概率较大，如果训练误差和测试误差都很高，一般是欠拟合。过拟合可以从增加样本量，减少特征数，降低模型复杂度等方面入手，实际的例子比如线性回归中，对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之，需要考虑模型是否收敛，特征是否过少，模型是否过于...

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT【图】

版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，...

机器学习-EM算法-pLSA模型笔记【图】

pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis，概率隐语义分析)，增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。D代表文档，Z代表主题(隐含类别)，W代表单词；　　?P(di)表示文档di的出现概率，?　　P(zk|di)表示文档di中主题zk的出现概率，?　　P(wj|zk)表示给定主题zk出现单词wj的概率...

机器学习十大算法之C4.5【图】

C4.5由J.Ross Quinlan在ID3的基础上提出。从ID3算法中衍生出了C4.5和CART两种算法，这两种算法在数据挖掘中都非常重要。数据集如图所示，它表示的是天气情况与去不去打高尔夫球之间的关系。 C4.5并不是一个算法，而是一组算法——C4.5，非剪枝C4.5和C4.5规则。下图中的算法给出C4.5的基本工作流程：我们可能有疑问，一个元组本身有很多属性，我们怎么知道首先要对哪个属性进行判断，接下来要对哪个属性进行判断？一般而言，随着划...

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）【代码】【图】

一、聚类的概念聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。我们事先并不知道数据的正确结果(类标)，通过聚类算法来发现和挖掘数据本身的结构信息，对数据进行分簇(分类)。聚类算法的目标是，簇内相似度高，簇间相似度低二、基本的聚类分析算法　1. K均值(K-Means)：　　　　基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇。　　2. 凝聚的层次距...

机器学习算法综述

近些年来，随着大数据、云计算、移动互联网、人工智能技术的兴起，“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家，到各式各样的企业，甚至到普通的老百姓，都对“机器学习”技术略知一二。那么，机器学习到底是什么，它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系？机器学习有那些基本分支、基本方法？在本文中，我们将用最简单易懂的语言解释这些问题。问题一：“机器学...

机器学习常见算法分类汇总【图】

阅读目录1. 学习方式1.1 监督式学习1.2 非监督式学习1.3 半监督式学习1.4 强化学习2. 算法分类2.1 回归算法 2.2 基于实例的算法2.3 正则化方法2.4 决策树学习 2.5 贝叶斯方法2.6 基于核的算法 2.7 聚类算法2.8 关联规则学习2.9 遗传算法（genetic algorithm）2.10 人工神经网络2.11 深度学习 2.12 降低维度算法2.13 集成算法声明：本篇博文根据http://www.ctocio.com/hotnews/15919.html整理，原作者张萌，尊重原创。　　机器学习无...

机器学习 - 相关标签

机器学习分类机器学习和深度学习机器学习模型机器学习实战机器学习算法

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 机器学习算法系列（1）逻辑回归

机器学习算法系列（1）逻辑回归

内容导读

内容图文

1、逻辑回归算法原理

2、逻辑回归算法实现

2.1、数据预处理

2.2、挖掘建模

三、逻辑回归总结

内容总结

内容备注

内容手机端

【机器学习算法系列（1）逻辑回归】教程文章相关的互联网学习教程文章

机器学习之聚类算法【图】

# 机器学习算法总结-第四天(SKlearn/数据处理and特征工程)【图】

【机器学习实战之三】：C++实现K-均值（K-Means）聚类算法【图】

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

机器学习算法学习---模型融合和提升的算法（六）

机器学习——03K均值算法【代码】【图】

漫谈机器学习经典算法—人工神经网络

机器学习实战（2）—— k-近邻算法【代码】【图】

机器学习/数据挖掘/算法岗位面试题汇总

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT【图】

机器学习-EM算法-pLSA模型笔记【图】

机器学习十大算法之C4.5【图】

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）【代码】【图】

机器学习算法综述

机器学习常见算法分类汇总【图】

机器学习 - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程