首页 / PYTHON / python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2183字，纯文字阅读大概需要4分钟。

内容图文

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？

我正在尝试在数据集上创建分类器.我第一次使用XGBoost：

import xgboost as xgb
import pandas as pd
import numpy as np

train = pd.read_csv("train_users_processed_onehot.csv")
labels = train["Buy"].map({"Y":1, "N":0})

features = train.drop("Buy", axis=1)
data_dmat = xgb.DMatrix(data=features, label=labels)

params={"max_depth":5, "min_child_weight":2, "eta": 0.1, "subsamples":0.9, "colsample_bytree":0.8, "objective" : "binary:logistic", "eval_metric": "logloss"}
rounds = 180

result = xgb.cv(params=params, dtrain=data_dmat, num_boost_round=rounds, early_stopping_rounds=50, as_pandas=True, seed=23333)
print result

结果是：

        test-logloss-mean  test-logloss-std  train-logloss-mean  
0             0.683539          0.000141            0.683407
179           0.622302          0.001504            0.606452

我们可以看到它大约是0.622;

但是当我使用完全相同的参数(我认为)切换到sklearn时,结果是完全不同的.以下是我的代码：

from sklearn.model_selection import cross_val_score
from xgboost.sklearn import XGBClassifier
import pandas as pd

train_dataframe = pd.read_csv("train_users_processed_onehot.csv")
train_labels = train_dataframe["Buy"].map({"Y":1, "N":0})
train_features = train_dataframe.drop("Buy", axis=1)

estimator = XGBClassifier(learning_rate=0.1, n_estimators=190, max_depth=5, min_child_weight=2, objective="binary:logistic", subsample=0.9, colsample_bytree=0.8, seed=23333)
print cross_val_score(estimator, X=train_features, y=train_labels, scoring="neg_log_loss")

结果是：[ – 4.11429976 -2.08675843 -3.27346662],在逆转之后仍然远离0.622.

我把一个断点扔进了cross_val_score,并且看到分类器正在通过尝试预测测试集中的每个元组为负的概率为0.99左右进行疯狂的预测.

我想知道我哪里出错了.有人能帮助我吗？

解决方法:

这个问题有点陈旧,但我今天遇到了问题并弄清楚为什么xgboost.cv和sklearn.model_selection.cross_val_score给出的结果完全不同.

默认情况下,cross_val_score使用KFold或StratifiedKFold,其shuffle参数为False,因此折叠不会从数据中随机拉取.

所以,如果你这样做,那么你应该得到相同的结果,

cross_val_score(estimator, X=train_features, y=train_labels, scoring="neg_log_loss", cv = StratifiedKFold(shuffle=True, random_state=23333))

保持StratifiedKfold中的随机状态并在xgboost.cv中播种相同以获得完全可重现的结果.

内容总结

以上是互联网集市为您收集整理的python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？全部内容，希望文章能够帮你解决python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/795781.html

来源：【匿名】

【上一篇】如何使用Maya Python API 2.0在网格中添加边缘【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

本文K折验证拟采用的是Python 中 sklearn 包中的 StratifiedKFold 方法。方法思想详见：http://scikit-learn.org/stable/modules/cross_validation.htmlStratifiedKFold isa variation of k-fold which returns stratified folds:each set contains approximately the same percentage of samples of each target class as the complete set.【译】StratifiedKFold 是一种将数据集中每一类样本的数据成分，按均等方式拆分的方法。其...

python sklearn画ROC曲线

preface：最近《生物信息学》多次谈到AUC，ROC这两个指标，正在做的project，要求画ROC曲线，sklearn里面有相应的函数，故学习学习。AUC:ROC:具体使用参考sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.htmlhttp://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#example-model-selection-plot-roc-crossval-pyhttp://www.tuicool.com/articles/b22eYz(博...

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

使用清华源快速下载：pip install sklearn -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn包可替换成其他包，例如numpy，TensorFlow等包，一次不行，多重复下载几次（亲测可行）pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple 原文：https://www.cnblogs.com/zhff/p/13047751.html

python-Sklearn神经网络问题【代码】

我正在做一些神经网络练习,并且只停留在一个问题上.我的网络无法预测正确的结果,即使它说培训分数是97％. 这是我的代码：# Import `datasets` from `sklearn` from sklearn import datasets import pandas as pd from sklearn.model_selection import train_test_split # Import `train_test_split` from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neural...

看看pyhton的sklearn机器学习算法【代码】【图】

免费学习推荐：python视频教程导入必要通用模块import pandas as pdimport matplotlib.pyplot as pltimport osimport numpy as npimport copyimport reimport math一机器学习通用框架：以knn为例#利用邻近点方式训练数据不太适用于高维数据from sklearn.model_selection import train_test_split#将数据分为测试集和训练集from sklearn.neighbors import KNeighborsClassifier#利用邻近点方式训练数据#1.读取数据data=pd.read_exc...

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

参考文章 Python机器学习笔记：sklearn库的学习 ML神器：sklearn的快速使用机器学习与Sklearn的初识传统的机器学习任务从开始到建模的一般流程是：获取数据 → 数据预处理 → 训练建模 → 模型评估 → 预测，分类。 Skikit-learn算法库由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：常用的回归：线性、决策树、SVM、KNN ；常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；既可以回归也可以分类的算法：...

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略目录 TSNE简介 TSNE使用方法 TSNE代码实现 TSNE简介 t-分布随机邻居嵌入。t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转化为联合概率，并试图最小化低维嵌入和高维数据联合概率之间的Kullback-Leibler差异。t-SNE有一个非凸的代价函数，即通过不同的初始化，我们可以得到不同的结果。强烈建议使用另一种降维方法(如...

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

sklearn使用方法，包括从制作数据集，拆分数据集，调用模型，保存加载模型，分析结果，可视化结果 1 import pandas as pd2 import numpy as np3 from sklearn.model_selection import train_test_split #训练测试集拆分4 from sklearn.linear_model import LogisticRegression #逻辑回归模型5 import matplotlib.pyplot as plt #画图函数6 7 from sklearn.externals import joblib #保存加载模型函数joblib8 9 #以下为sklearn评测...

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

本人在此就不搬运书上关于密度聚类的理论知识了，仅仅实现密度聚类的模板代码和调用skelarn的密度聚类算法。有人好奇，为什么有sklearn库了还要自己去实现呢？其实，库的代码是比自己写的高效且容易，但自己实现代码会对自己对算法的理解更上一层楼。 #调用科学计算包与绘图包 import numpy as np import random import matplotlib.pyplot as plt # 获取数据 def loadDataSet(filename):dataSet=np.loadtxt(filename,dtype=np.flo...

python 使用sklearn绘制roc曲线选取合适的分类阈值

https://zhuanlan.zhihu.com/p/26293316 比如, 我已经初步训练好了一个模型,现在我想用这个模型从海量的无标记数据集挖掘出某一类数据A,并且想要尽量不包含其他所有类B 但我挖掘出的结果必然包含错误的,我拿出的A越多,同时附带的分类错数据B也就越多, 一般,拿出的A占总体比例越大,拿出的B类也会占总体比例越大,这个比例的变化一般是单调非线性的,且根据实际情况,我们可接受的比例也不同简单来说,不同的recall对应不同的precision,...

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样：将训练/测试数据集划分n_splits个互斥子集，每次只用其中一个子集当做测试集，剩下的（n_splits-1）作为训练集，进行n_splits次实验并得到n_splits个结果。注：对于不能均等分的数据集，前n_samples%n_spllits子集拥有n_samples//n_spllits+1个样本，其余子集都只有n_samples//n_spllits个样本。（例10行数据分3份，只有一份可分4行，其他均为3行）1 sklearn.model_se...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

python sklearn画ROC曲线

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

python-Sklearn神经网络问题【代码】

看看pyhton的sklearn机器学习算法【代码】【图】

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

python 使用sklearn绘制roc曲线选取合适的分类阈值

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

[转][python sklearn模型中random_state参数的意义]

python调用sklearn模块实现朴素贝叶斯(NBC)——以新闻分类为例【图】

python编程之sklearn.preprocessing.LabelBinarizer()的用法解析【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程