首页 / PYTHON / 使用Iris数据集重现LASSO / Logistic回归导致R与Python

使用Iris数据集重现LASSO / Logistic回归导致R与Python

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Iris数据集重现LASSO / Logistic回归导致R与Python，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4303字，纯文字阅读大概需要7分钟。

内容图文

我试图在Python中重现以下R结果.在这种特殊情况下,R预测技能低于Python技能,但在我的经验中通常不是这种情况(因此想要在Python中重现结果的原因),所以请在此处忽略该细节.

目的是预测花种(‘versicolor’0或’virginica’1).我们有100个标记样本,每个样本由4个花特征组成：萼片长度,萼片宽度,花瓣长度,花瓣宽度.我将数据分为训练(60％的数据)和测试集(40％的数据).将10倍交叉验证应用于训练集以搜索最佳λ(在scikit-learn中优化的参数是“C”).

我在R中使用glmnet,alpha设置为1(对于LASSO惩罚),对于python,scikit-learn的LogisticRegressionCV函数与“liblinear”解算器(唯一可以与L1惩罚一起使用的求解器).交叉验证中使用的评分指标在两种语言之间是相同的.然而,不知何故,模型结果是不同的(每个特征的截距和系数变化相当大).

R代码

library(glmnet)
library(datasets)
data(iris)

y <- as.numeric(iris[,5])
X <- iris[y!=1, 1:4]
y <- y[y!=1]-2

n_sample = NROW(X)

w = .6
X_train = X[0:(w * n_sample),]  # (60, 4)
y_train = y[0:(w * n_sample)]   # (60,)
X_test = X[((w * n_sample)+1):n_sample,]  # (40, 4)
y_test = y[((w * n_sample)+1):n_sample]   # (40,)

# set alpha=1 for LASSO and alpha=0 for ridge regression
# use class for logistic regression
set.seed(0)
model_lambda <- cv.glmnet(as.matrix(X_train), as.factor(y_train),
                        nfolds = 10, alpha=1, family="binomial", type.measure="class")

best_s  <- model_lambda$lambda.1se
pred <- as.numeric(predict(model_lambda, newx=as.matrix(X_test), type="class" , s=best_s))

# best lambda
print(best_s)
# 0.04136537

# fraction correct
print(sum(y_test==pred)/NROW(pred))   
# 0.75

# model coefficients
print(coef(model_lambda, s=best_s))
#(Intercept)  -14.680479
#Sepal.Length   0        
#Sepal.Width   0
#Petal.Length   1.181747
#Petal.Width    4.592025

Python代码

from sklearn import datasets
from sklearn.linear_model import LogisticRegressionCV
from sklearn.preprocessing import StandardScaler
import numpy as np

iris = datasets.load_iris()
X = iris.data
y = iris.target
X = X[y != 0]  # four features. Disregard one of the 3 species.                                                                                                                 
y = y[y != 0]-1  # two species: 'versicolor' (0), 'virginica' (1). Disregard one of the 3 species.                                                                               

n_sample = len(X)

w = .6
X_train = X[:int(w * n_sample)]  # (60, 4)
y_train = y[:int(w * n_sample)]  # (60,)
X_test = X[int(w * n_sample):]  # (40, 4)
y_test = y[int(w * n_sample):]  # (40,)

X_train_fit = StandardScaler().fit(X_train)
X_train_transformed = X_train_fit.transform(X_train)

clf = LogisticRegressionCV(n_jobs=2, penalty='l1', solver='liblinear', cv=10, scoring = ‘accuracy’, random_state=0)
clf.fit(X_train_transformed, y_train)

print clf.score(X_train_fit.transform(X_test), y_test)  # score is 0.775
print clf.intercept_  #-1.83569557
print clf.coef_  # [ 0,  0, 0.65930981, 1.17808155] (sepal length, sepal width, petal length, petal width)
print clf.C_  # optimal lambda: 0.35938137

解决方法:

以上示例中有一些不同之处：

>系数的比例

> glmnet(https://cran.r-project.org/web/packages/glmnet/glmnet.pdf)标准化数据和“系数总是以原始比例返回”.因此,在调用glmnet之前,您没有扩展数据.
> Python代码标准化数据,然后适合标准化数据.在这种情况下,coefs是标准化的规模,而不是原始规模.这使得示例之间的系数不可比较.

>默认情况下,LogisticRegressionCV使用分层折叠. glmnet使用k-fold.
>他们拟合不同的方程式.请注意,scikit-learn logistic(http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)与后勤方面的正规化相符. glmnet将正则化置于惩罚之上.
>选择正则化优势来尝试 – glmnet默认为100 lambda来尝试. scikit LogisticRegressionCV默认为10.由于scikit求解方程,范围介于1e-4和1e4之间(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html#sklearn.linear_model.LogisticRegressionCV).
>宽容是不同的.在我遇到的一些问题中,收紧公差显着改变了系数.

> glmnet默认阈值为1e-7
> LogisticRegressionCV默认值为1e-4
>即使在使它们相同之后,它们也可能无法衡量同样的事情.我不知道什么是liblinear措施. glmnet – “每个内部坐标下降循环一直持续到任何系数更新后物镜的最大变化小于零偏差的阈值.”

您可能想要尝试打印正则化路径以查看它们是否非常相似,只是停止在不同的强度上.然后你可以研究为什么.

即使改变了你可以改变的东西,但不是以上所有,你可能得不到相同的系数或结果.虽然您在不同的软件中解决了同样的问题,但软件如何解决问题可能会有所不同.我们看到不同的尺度,不同的方程,不同的默认值,不同的求解器等.

内容总结

以上是互联网集市为您收集整理的使用Iris数据集重现LASSO / Logistic回归导致R与Python全部内容，希望文章能够帮你解决使用Iris数据集重现LASSO / Logistic回归导致R与Python所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/810275.html

来源：【匿名】

【上一篇】无法删除python pip 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用Iris数据集重现LASSO / Logistic回归导致R与Python】教程文章相关的互联网学习教程文章

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

一、KNN算法的介绍　　K最近邻（k-Nearest Neighbor，KNN）分类算法是最简单的机器学习算法之一，理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量；然后根据距离计算待测试样本和每个训练样本的距离，选择距离最小的K个样本作为近邻样本；最后根据K个近邻样本判断待分类样本的类别。KNN算法的正确选取是分类正确的关键因素之一，而近邻样本是通过计算测试样本与每个训练集样本的距离来选定的，故定义合适的...

Python实现bp神经网络识别MNIST数据集【代码】

title: "Python实现bp神经网络识别MNIST数据集" date: 2018-06-18T14:01:49+08:00 tags: [""] categories: ["python"]前言训练时读入的是.mat格式的训练集，测试正确率时用的是png格式的图片代码#!/usr/bin/env python3# coding=utf-8import math import sys import os import numpy as np from PIL import Image import scipy.io as siodef sigmoid(x):return np.array(list(map(lambda i: 1/ (1+ math.exp(-i)), x)))def get_tra...

python 鸢尾花数据集报表展示【代码】

import seaborn as snsimport pandas as pdimport matplotlib.pyplot as pltsns.set_style(‘white‘,{‘font.sans-serif‘:[‘simhei‘,‘Arial‘]})from sklearn.datasets import load_irisdata = load_iris() #加载鸢尾花数据集tt = pd.DataFrame(data=data.data, columns=data.feature_names) #将数据集数据转换成pandatt[‘species‘] = data.target #把鸢尾花类型加入到数据集中data = tt#为了方便大家观看，把列名换成中文...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encodingfrom keras.models import Sequential from keras.l...

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

import tensorflow as tf# 输入数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("E:\\MNIST_data", one_hot=True)# 定义网络的超参数 learning_rate = 0.001 training_iters = 200000 batch_size = 128 display_step = 5# 定义网络的参数 # 输入的维度 (img shape: 28*28) n_input = 784 # 标记的维度 (0-9 digits) n_classes = 10 # Dropout的概率，输出的可能性 dropout = ...

Python深度学习之搭建小型卷积神经网络（Kaggle网站Dogs-vs-Cats数据集）

完全来源与《Python深度学习》中的例子，仅供学习只用。 Cats vs. Dogs（猫狗大战）是Kaggle大数据竞赛的数据集，数据集由训练数据和测试数据组成，训练数据包含猫和狗各12500张图片，测试数据包含12500张猫和狗的图片。我们取Cats vs. Dogs数据集中的2000个测试，1000验证，1000个测试，其中猫狗各一半。。在2000个训练样本上训练一个简单的小型卷积神经网络，不做任何正则化，为模型目标设定一个基准，这会得到73%的分类精度。...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encoding from keras.models import Sequential from keras....

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

基于算法专项六，的tensorflow原理，用三层网络结构进行训练手写字数据集目录 1-手写数字数据集1.1数据集下载1.2数据集读取1.3进行各种样式的显示测试1.3.1显示单张样本1.3.1显示多张样本在一张影像上1.3.1显示多张样本在一张影像上并且在每张影像外面加白框2-用tensorflow框架搭建三层网络，训练手写字数据集2.1技巧1，用全连接方法代替专项六中的矩阵相乘并加上偏置项操作2.2tensorflow补充知识1、tf.one_hot()使用2、tf.nn.sof...

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

我遇到了一个问题,试图在传入Dataset map方法的函数中使用Tensorflow的feature_column映射.当尝试使用Dataset.map对数据集的分类字符串特征进行热编码作为输入管道的一部分时,会发生这种情况.我得到的错误信息是： tensorflow.python.framework.errors_impl.FailedPreconditionError：表已初始化. 以下代码是重新创建问题的基本示例：import numpy as np import tensorflow as tf from tensorflow.contrib.lookup import in...

python – Tensorflow数据集API中的过采样功能【代码】

我想问一下,当前的数据集API是否允许实现过采样算法？我处理高度不平衡的阶级问题.我当时认为在数据集解析过程中对特定类进行过采样会很好,即在线生成.我已经看到了rejection_resample函数的实现,但是这会删除样本而不是复制它们,并且它减慢了批处理生成(当目标分布与初始分布大不相同时).我想要实现的是：举一个例子,看看它的类概率决定是否复制它.然后调用dataset.shuffle(…)dataset.batch(…)并获取迭代器.最好的(在我看来)方法...

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

在张量流数据集管道中,我想定义一个自定义映射函数,它接受一个输入元素(数据样本)并返回多个元素(数据样本). 下面的代码是我的尝试,以及期望的结果. 我无法完全按照tf.data.Dataset().flat_map()上的文档来了解它是否适??用于此处.import tensorflow as tfinput = [10, 20, 30]def my_map_func(i):return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exceptionds = tf.data.Dataset.from_tensor_slices(input) ds ...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

我写了一篇文章深入解释神经网络如何从头开始工作. 为了说明博客文章,我在python using numpy编写了神经网络,并使用TensorFlow编写了一个版本.我在Github上传了代码来说明这个问题,但这不是一个干净的版本. 该网络的目标是根据其三个特征(公里,燃料类型,年龄)预测汽车的价格,这是我从头开始创建的玩具示例. 我从leboncoin.fr检索数据,我的数据集由大约9k辆车组成(仅限BMW系列1).我将数据标准化,使价格介于[0,1]之间,燃料类型采用二...

pytorch+visdomCNN处理自建图片数据集的方法【图】

这篇文章主要介绍了关于pytorch + visdom CNN处理自建图片数据集的方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下环境系统：win10cpu：i7-6700HQgpu：gtx965mpython : 3.6pytorch ：0.3数据下载来源自Sasank Chilamkurthy 的教程；数据：下载链接。下载后解压放到项目根目录：数据集为用来分类蚂蚁和蜜蜂。有大约120个训练图像，每个类有75个验证图像。数据导入可以使用 torchvision.datasets.ImageFol...

序列标注、手写小写字母OCR数据集、双向RNN

序列标注(sequence labelling)，输入序列每一帧预测一个类别。OCR(Optical Character Recognition 光学字符识别)。MIT口语系统研究组Rob Kassel收集，斯坦福大学人工智能实验室Ben Taskar预处理OCR数据集(http://ai.stanford.edu/~btaskar/ocr/ )，包含大量单独手写小写字母，每个样本对应16X8像素二值图像。字线组合序列，序列对应单词。6800个，长度不超过14字母的单词。gzip压缩，内容用Tab分隔文本文件。Python csv模块直接读取...

首页 / PYTHON / 使用Iris数据集重现LASSO / Logistic回归导致R与Python

使用Iris数据集重现LASSO / Logistic回归导致R与Python

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Iris数据集重现LASSO / Logistic回归导致R与Python】教程文章相关的互联网学习教程文章

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

Python实现bp神经网络识别MNIST数据集【代码】

python 鸢尾花数据集报表展示【代码】

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

Python深度学习之搭建小型卷积神经网络（Kaggle网站Dogs-vs-Cats数据集）

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

python – Tensorflow数据集API中的过采样功能【代码】

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

pytorch+visdomCNN处理自建图片数据集的方法【图】

序列标注、手写小写字母OCR数据集、双向RNN

PYTHON - 相关标签

SSO - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程