【python sklearn.linear_model.LinearRegression.score】教程文章相关的互联网学习教程文章

python – sklearn交叉验证符合JoblibValueError【代码】

我正在使用sklearn.cross_validation.cross_val_score来评估我的模型.以下是我的代码的一部分: – """ 5-fold Cross Validation """ print "*** 5-fold Cross Validation" shuffle = ShuffleSplit(len(y), n_iter=5) clf = LinearSVC(penalty = 'l2') print "Doing cross-validation" cv_res = cross_val_score(clf, X, y, cv=shuffle, verbose=2, n_jobs = 6,scoring=precision_recall_fscore_support) print numpy.unique(y) p...

python – Sklearn将Pandas Dataframe和CSR Matrix分成测试和训练集【代码】

我正在尝试使用scikit-learn DecisionTree和Pandas Dataframe对文本进行分类:首先,我构建了一个如下所示的数据框:cat1 cat2 corpus title 0 0 1 Test Test Test erster titel 1 1 0 Test Super Super zweiter titel 2 0 1 Test Test Test dritter titel 3 0 1 Te...

python – sklearn中随机回归的正则化参数设置【代码】

我正在使用sklearn Randomized Regression,例如Randomized Logistic Regression.因为随机逻辑回归使用L1惩罚,所以需要设置正则化参数C(或Lasso中的alpha). 为了找到C的好价值,我通常使用简单的GridSearchCV,如下所示. 但RandomizedLogisticRegression()不支持GridSearchCV,因为它包含bootstrapping.相反,我尝试将典型的LogisticRegression与GridSearchCV一起使用.params = {'C':[0.1, 1, 10]} logi = LogisticRegression(penalty='...

python – 如何查看sklearn.preprocessing.PolynomialFeatures的效果?【代码】

如果我有一定数量的基本特征并且从它们生成适度的多项式特征顺序,那么知道特征数组preprocess_XX的哪一列对应于基本特征的哪个变换会让人感到困惑. 我曾经做过类似下面的事情,使用旧版sklearn(可能是0.14?):import numpy as np from sympy import Symbol from sklearn.preprocessing import PolynomialFeatures poly = PolynomialFeatures(4) x1 = Symbol('x1') x2 = Symbol('x2') x3 = Symbol('x3') XX = np.random.rand(1000, ...

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果?【代码】

我正在尝试在数据集上创建分类器.我第一次使用XGBoost:import xgboost as xgb import pandas as pd import numpy as nptrain = pd.read_csv("train_users_processed_onehot.csv") labels = train["Buy"].map({"Y":1, "N":0})features = train.drop("Buy", axis=1) data_dmat = xgb.DMatrix(data=features, label=labels)params={"max_depth":5, "min_child_weight":2, "eta": 0.1, "subsamples":0.9, "colsample_bytree":0.8, "ob...

python.sklearn与机器学习(1)【图】

机器学习主要有:分类、聚类、回归、降维。通过python.sklearn接口函数进行基本的实现。 分类(监督学习) 通过特征矩阵,预测其对应的目标向量值y,若y离散,则是一个分类问题。 以鸢尾花数据及为例: 聚类(无监督学习) 只有特征矩阵,无目标向量的分类问题降维 使特征矩阵列数减少,尽可能多的代表原始信息,但仍会损失信息回归(监督学习) 对特征矩阵,预测其目标向量y,若y连续,则为回归

python – Sklearn:如何将数据提供给sklearn RandomForestClassifier【代码】

我有这些数据:print training_data print labels# prints[[1, 0, 1, 1], [1, 1, 1, 1], [1, 0, 1, 1], [1, 1, 1, 0], [1, 1, 0, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 0,0], [1, 1, 1, 1], [1, 0, 1, 1]] ['a', 'b', 'a', 'b', 'a', 'b', 'b', 'a', 'a', 'a', 'b']我正在尝试从sklearn python库中将它提供给RandomForestClassifier.classifier = RandomForestClassifier(n_estimators=10) classifier.fit(traini...

在sklearn Python的决策树中使用pydot制作图表【代码】

我希望这段代码能够创建树的PDF图形.from sklearn import datasets,tree import StringIO import pydot from sklearn.externals.six import StringIO iris = datasets.load_iris()clf = tree.DecisionTreeClassifier() clf = clf.fit(iris['data'],iris['target'])dot_data = StringIO.StringIO() tree.export_graphviz(clf, out_file=dot_data) graph = pydot.graph_from_dot_data(dot_data.getvalue()) graph.write_pdf("iris.p...

python – 线性回归实现总是比sklearn更糟糕【代码】

我在python中实现了梯度下降的线性回归.为了了解它的表现如何,我将它与scikit-learn的LinearRegression()类进行了比较.出于某种原因,sklearn总是比MSE平均表现优于我的程序(我使用Boston Housing数据集进行测试).我知道我目前没有进行梯度检查以检查收敛,但我允许进行多次迭代并将学习率设置得足够低,以便它应该收敛.我的学习算法实现中有没有明显的错误?这是我的代码:import numpy as np from sklearn.linear_model import Line...

python – 使用numpy 1d-array作为sklearn X的最短语法【代码】

我经常有两个numpy 1d数组,x和y,并且想要使用它们执行一些快速的sklearn拟合预测.import numpy as npfrom sklearn import linear_model# This is an example for the 1d aspect - it's obtained from something else.x = np.array([1, 3, 2, ...]) y = np.array([12, 32, 4, ...])现在我想做点什么linear_model.LinearRegression().fit(x, y)...问题是它expects an X which is a 2d column array.因此,我通常喂它x.reshape((len(x)...

python – Sklearn逻辑回归,绘制概率曲线图【代码】

我正在尝试创建类似于ISLR示例的逻辑回归,但是使用python代替data=pd.read_csv("data/Default.csv")#first we'll have to convert the strings "No" and "Yes" to numeric values data.loc[data["default"]=="No", "default"]=0 data.loc[data["default"]=="Yes", "default"]=1 X = data["balance"].values.reshape(-1,1) Y = data["default"].values.reshape(-1,1)LogR = LogisticRegression() LogR.fit(X,np.ravel(Y.astype(int)...

python – 如何在sklearn中使用GridSearchCV和自定义估算器?【代码】

我有一个估计应该与sklearn api兼容.我试图用gridsearchcv拟合这个估计器的一个参数,但我不明白该怎么做. 这是我的代码:import numpy as np import sklearn as skfrom sklearn.linear_model import LinearRegression, LassoLarsCV, RidgeCV from sklearn.linear_model.base import LinearClassifierMixin, SparseCoefMixin, BaseEstimatorclass ELM(BaseEstimator):def __init__(self, n_nodes, link='rbf', output_function='las...

python – 使用sklearn进行Logistic回归

不确定这是否是这个问题的好地方,但我被告知CrossValidated不是.所以,所有这些问题都涉及sklearn,但如果你对逻辑回归有一般的见解,我也很乐意听到它们. 1)数据是否必须标准化(平均0,stdev 1)?2)在sklearn中,如何指定我想要的正则化类型(L1与L2)?请注意,这与惩罚不同;惩罚是指分类错误,而不是对系数的修正.3)我如何使用变量选择?即,类似于用于线性回归的套索.4)使用正则化时,如何优化C,正则化强度?有内置的东西,还是我自己要照顾...

python – partial_fit Sklearn的MLPClassifier【代码】

我一直在尝试使用Sklearn的神经网络MLPClassifier.我有一个大小为1000个实例的数据集(带有二进制输出),我想应用一个带有1个隐藏层的基本神经网络. 问题是我的数据实例并非同时全部可用.在任何时间点,我只能访问1个数据实例.我认为MLPClassifier的partial_fit方法可以用于此,所以我用1000个输入的虚数据集模拟了这个问题,并且一次一个地循环输入,并且每个实例都有一个partial_fit但是当我运行代码时,神经网络什么都不学习并且预测的...

python – 将多个算法与sklearn管道进行比较【代码】

我正在尝试建立一个scikit-learn管道来简化我的工作.我面临的问题是我不知道哪种算法(随机森林,朴素贝叶斯,决策树等)最合适,所以我需要尝试每种算法并比较结果.但管道一次只能采用一种算法吗?例如,下面的管道只接受SGDClassifier()作为算法.pipeline = Pipeline([ ('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', SGDClassifier()),])如果我想比较不同的算法,我该怎么办?我可以这样做吗?pipeline = Pipel...