【python sklearn.linear_model.LinearRegression.score】教程文章相关的互联网学习教程文章

python-使用Dask或Joblib并行Sklearn模型构建【代码】

我想与Dask并行构建大量的sklearn管道.这是一个简单但幼稚的顺序方法:from sklearn.naive_bayes import MultinomialNB from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.pipeline import Pipeline from sklearn.datasets import load_iris from sklearn.model_selection import train_test_splitiris = load_iris() X_train, X_test, Y_train, Y_test = ...

python-如何在sklearn中的每个交叉验证模型中计算特征重要性【代码】

我使用RandomForestClassifier()与10倍交叉验证,如下所示.clf=RandomForestClassifier(random_state = 42, class_weight="balanced") k_fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=42) accuracy = cross_val_score(clf, X, y, cv=k_fold, scoring = 'accuracy') print(accuracy.mean())我想确定特征空间中的重要特征.如下所示,对于单个分类而言,获得功能重要性似乎很简单.print("Features sorted by their s...

Python Sklearn线性回归值错误【代码】

香港专业教育学院一直在尝试使用sklearn的线性回归.有时我遇到值错误,有时可以正常工作.我不确定使用哪种方法.错误消息如下:Traceback (most recent call last):File "<stdin>", line 1, in <module>File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/sklearn/linear_model/base.py", line 512, in fity_numeric=True, multi_output=True)File "/Library/Frameworks/Python.framework/Versio...

python – 当目标变量是一个比例时如何使用sklearn【代码】

有一些标准方法可以预测比例,例如逻辑回归(没有阈值处理)和β回归.关于这个已经有过讨论: http://scikit-learn-general.narkive.com/4dSCktaM/using-logistic-regression-on-a-continuous-target-variable http://scikit-learn-general.narkive.com/lLVQGzyl/beta-regression 我无法分辨sklearn框架中是否存在解决方法.解决方法:存在一种解决方法,但它本身并不属于sklearn框架. 如果您有一个比例目标变量(值范围0-1),则scikit-lea...

python – Sklearn SVM:SVR和SVC,为每个输入获得相同的预测【代码】

这是代码粘贴:SVM sample code 我查看了这个问题的几个其他答案……似乎问题的这个特定迭代有点不同. 首先,我的输入被标准化,我每点有五个输入.这些值都是合理的大小(健康的0.5s和0.7s等 – 很少接近零或接近1个数字). 我有大约70个输入对应于他们的70 y输入. y输入也被标准化(它们是每个时间步之后我的函数的百分比变化). 我初始化我的SVR(和SVC),训练它们,然后用30个样本外输入测试它们……并获得每个输入的完全相同的预测(并且...

python – 在sklearn DecisionTreeClassifier中修剪不必要的叶子【代码】

我使用sklearn.tree.DecisionTreeClassifier来构建决策树.使用最佳参数设置,我得到一个有不必要叶子的树(参见下面的示例图片 – 我不需要概率,所以标记为红色的叶节点是不必要的分割)是否有任何第三方库用于修剪这些不必要的节点?还是代码片段?我可以写一个,但我无法想象我是第一个有这个问题的人…… 要复制的代码:from sklearn.tree import DecisionTreeClassifier from sklearn import datasets iris = datasets.load_iris()...

python – sklearn LinearSVC – X每个样本有1个特征;期待5【代码】

我正在尝试预测测试数组的类,但是我得到了以下错误,以及堆栈跟踪:Traceback (most recent call last):File "/home/radu/PycharmProjects/Recommender/Temporary/classify_dict_test.py", line 24, in <module>print classifier.predict(test)File "/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py", line 215, in predictscores = self.decision_function(X)File "/home/radu/.local/lib/python2.7/...

python – 自定义loss-function sklearn【代码】

我想在数据科学项目中进行预测,并通过非对称函数计算误差. 是否可以调整随机森林或梯度增强(sklearn)的损失函数? 我已经读过需要修改.pyx文件,但我在sklearn文件夹中找不到任何文件(我在ubuntu 14.04 LTS上). 你有什么建议吗?解决方法:是的,可以调整.例如:class ExponentialPairwiseLoss(object):def __init__(self, groups):self.groups = groupsdef __call__(self, preds, dtrain):labels = dtrain.get_label().astype(np.int...

python – sklearn LogisticRegression并更改分类的默认阈值

我正在使用sklearn包中的LogisticRegression,并且有一个关于分类的快速问题.我为我的分类器建立了一条ROC曲线,结果证明我的训练数据的最佳阈值大约为0.25.我假设创建预测时的默认阈值是0.5.如何进行10倍交叉验证时,如何更改此默认设置以了解模型的准确度?基本上,我希望我的模型能够为大于0.25但不是0.5的任何人预测“1”.我一直在查看所有文档,我似乎无法到达任何地方. 在此先感谢您的帮助.解决方法:这不是内置功能.您可以通过在自...

python – 如何安装sklearn?【代码】

我有一个数字识别程序,我已经安装了NumPy和OpenCv库.但是,我还需要安装sklearn库.请帮我弄清楚如何在我的系统上安装它.解决方法: pip install numpy scipy scikit-learn如果您没有pip,请使用它进行安装python get-pip.py从following link下载get-pip.py.或使用curl下载它.curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

python – 在sklearn cross_val_score上评估多个分数【代码】

我正在尝试使用sklearn评估多个机器学习算法,以获得几个指标(准确度,召回率,精度等等). 对于我从文档here和源代码(我使用sklearn 0.17)中理解的内容,cross_val_score函数每次执行只接收一个记分器.因此,为了计算多个分数,我必须: >多次执行>实施我的(耗时且容易出错的)得分手 我用这段代码执行了多次:from sklearn.svm import SVC from sklearn.naive_bayes import GaussianNB from sklearn.tree import DecisionTreeClassifier ...

python – ImportError:没有名为sklearn.cross_validation的模块【代码】

我在Ubuntu 14.04中使用python 2.7.我用这些命令安装了scikit-learn,numpy和matplotlib:sudo apt-get install build-essential python-dev python-numpy python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib ipython但是当我导入这些包时:from sklearn.cross_validation import train_test_split它返回给我这个错误:ImportError: No module named sklearn.cross_validation我需要做什么?解决方法:确保安装了Ana...

python – Panda的get_dummies与Sklearn的OneHotEncoder()::有什么优缺点?【代码】

我正在学习不同的方法来将分类变量转换为机器学习分类器的数字.我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder(),我想看看它们在性能和使用方面有何不同. 我找到了一个关于如何在https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/上使用OneHotEnocder()的教程,因为sklearn文档对此功能没有太大帮助.我有一种感觉,我没有正确地做到这一点...

python – 用sklearn扩展的pandas数据帧列【代码】

我有一个带有混合类型列的pandas数据帧,我想将sklearn的min_max_scaler应用于某些列.理想情况下,我想在适当的位置进行这些转换,但还没有想出办法.我编写了以下代码:import pandas as pd import numpy as np from sklearn import preprocessingscaler = preprocessing.MinMaxScaler()dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','sm...

如何在python中使用tf-idf svm sklearn绘制文本分类【代码】

我已经按照this tutorial的教程使用tf-idf和SVM实现了文本分类 分类工作正常.现在我想绘制tf-idf值(即特征),并查看最终超平面如何生成,将数据分类为两个类. 实施的代码如下:import os import numpy as np from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import confusion_matrix from sklearn.svm import LinearSVC from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selec...