【python sklearn.linear_model.LinearRegression.score】教程文章相关的互联网学习教程文章

python – sklearn log_loss不同的类数【代码】

我正在使用log_loss和sklearnfrom sklearn.metrics import log_loss print log_loss(true, pred,normalize=False)我有以下错误:ValueError: y_true and y_pred have different number of classes 38, 2这对我来说真的很奇怪,因为这些数组看起来很有效:print pred.shape print np.unique(pred) print np.unique(pred).size (19191L,) [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2425 26 27 28 29...

python – sklearn:计算测试数据集上k-means的准确度分数【代码】

我正在对具有2个簇的30个样本的集合进行k-means聚类(我已经知道有两个类).我将我的数据分成训练和测试集,并尝试计算我的测试集上的准确度分数.但是有两个问题:首先我不知道我是否可以实际为k-means聚类做这个(测试集的准确度得分).第二:如果我被允许这样做,我的实现是写还是错.这是我尝试过的:df_hist = pd.read_csv('video_data.csv')y = df_hist['label'].values del df_hist['label'] df_hist.to_csv('video_data1.csv') X =...

python – “__init __()得到参数’n_splits’的多个值”与sklearn ShuffleSplit的错误【代码】

我正进入(状态init() got multiple values for argument ‘n_splits’此行的错误:cv = ShuffleSplit(n_splits = 10, test_size = 0.2, random_state = 0)在以下代码中:import matplotlib.pyplot as pl import numpy as np import sklearn.model_selection as curves from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import ShuffleSplit, train_test_split, learning_curvedef ModelLearning(X, y...

python – 使用Spearman与Sklearn KNN的相关性进行模式匹配【代码】

我试图使用包含在用户定义的度量中的Spearman相关性来查找Scikit-learn中的最近邻居.出于某种原因,它仅在我的训练数据中的列数为5且k = 5时才有效.对于任何其他组合(例如,列数= 8和k = 6),它会给我以下错误. (此处列车和测试装置有4列,k = 4).如果我使用Pearson进行相关,它的效果非常好.有谁知道为什么会发生这种情况或如何解决它?谢谢.from scipy.stats import spearmanr def spearmancorr(x,y):rho, pval = spearmanr(x,y, axis...

python sklearn CountVectorizer的使用及相关说明【代码】【图】

最近想用python对数据集进行数据预处理,想要分析系统调用之间的关系。初步想法是利用n-gram方法,因此查询到了python的sklearn中有一个CountVectorizer方法可以使用,在这里介绍一下这个函数的使用方法,以及其输出的相关含义。 0x01 输入及输出from sklearn.feature_extraction.text import CountVectorizer # from sklearn.feature_extraction.text import TfidfTransformer import pandas as pddata = ['I love you', 'you are...

python – 使用sklearn GridSearchCV查找具有大数据的优化参数(15750个样本)【代码】

我试图在Python中使用sklearn中的GridSearchCV来查找SVM分类器的参数.训练数据的形状为(15750,65536)(15750个样本,特征维度:65536). 使用默认设置一切正常!但是,如果我想使用并行处理选项,通过定义n_jobs我面临以下问题:数据被加载到内存中(在具有48 GB RAM的机器上,它占整个内存的大约14%),但它永远不会开始网格搜索/培训!在(h)顶部,过程状态为S(因此它基本上停止了!).它继续占用内存,但从未开始运行(CPU使用率保持为零!)....

python – 在ROC下的sklearn svm区域,训练数据小于0.5【代码】

我正在使用sklearn v 0.13.1 svm来尝试解决二进制分类问题.我使用kfold交叉验证并计算roc曲线下的面积(roc_auc)来测试我的模型的质量.但是,对于某些折叠,roc_auc小于0.5,即使对于训练数据也是如此.那不应该是不可能的吗?难道算法总是不可能在训练的数据上至少达到0.5吗? 这是我的代码:classifier = svm.SVC(kernel='poly', degree=3, probability=True, max_iter=100000) kf = cross_validation.KFold(len(myData), n_folds=3, ...

python – 如何分析sklearn中tfidf矩阵的值?【代码】

我正在使用sklearn的KMeans算法进行文档聚类http://brandonrose.org/clustering 这是TFIDF矩阵的计算.我已经理解了TFIDF技术背后的概念,但是当我打印这个矩阵时,矩阵是这样的:(0, 11) 0.238317554822(0, 34) 0.355850989305(0, 7) 0.355850989305(0, 21) 0.238317554822(0, 16) 0.355850989305(0, 35) 0.355850989305(0, 8) 0.355850989305(0, 17) 0.355850989305(0, 36) 0.355850989305(1, 11) 0.23831755...

python – 我可以在sklearn贝叶斯分类器中设置特征先验吗?【代码】

我做了一些简单的贝叶斯分类X = [[1,0,0], [1,1,0]] ### there are more data of course Y = [1,0]classifier = BernoulliNB()classifier.fit(X, Y)现在我有一些“内幕提示”,每个X中的第一个元素比其他元素更重要. >我可以在培训模型之前加入这些知识吗?>如果sklearn不允许,是否有其他分类器或其他图书馆允许我们在之前的模型培训中加入我们的?解决方法:我不知道问题2的答案,但我可以回答问题1. 在评论中“将每个观察的第一个元...

python – 如何在sklearn逻辑回归中应用class_weights?【代码】

我对sklearn如何应用我们提供的课程重量感兴趣. documentation没有明确说明应用类权重的位置和方式.阅读源代码也没有帮助(似乎sklearn.svm.liblinear用于优化,我无法读取源代码,因为它是.pyd文件……) 但我想它适用于成本函数:当指定类权重时,相应类的成本将乘以类权重.例如,如果我分别从0级(权重= 0.5)和1级(权重= 1)得到2个观察值,那么成本函数将是:Cost = 0.5*log(…X_0,y_0…) + 1*log(…X_1,y_1…) + penalization有谁知道这...

python – 具有多项式内核的sklearn和SVM【代码】

我使用sklearn for python来使用SVM执行交叉验证.我尝试使用线性和rbf内核,一切正常.当我使用多项式内核运行它虽然它永远不会完成.它已经运行了8个小时,但仍然没有.输入X的维数为(1422,2)def SupportVectorMachines(X,y):clf = svm.SVC(C=1.0, kernel='poly', degree=3, gamma=2)classifier = clf.fit(X,y)score = cross_validation.cross_val_score(classifier, X,y, cv=10, n_jobs=1).mean()return score任何想法为什么会这样? ...

python – 为sklearn k-means添加标签【代码】

我想在python中使用kmeans.data = [[1,2,3,4,5],[1,0,3,2,4],[4,3,234,5,5],[23,4,5,1,4],[23,5,2,3,5]]每个数据都有一个标签.例:[1,2,3,4,5] -> Fiat1 [1,0,3,2,4] -> Fiat2 [4,3,234,5,5] -> Mercedes [23,4,5,1,4] -> Opel [23,5,2,3,5] -> bmwkmeans = KMeans(init='k-means++', n_clusters=3, n_init=10) kmeans.fit(data)我的目标是在运行KMeans之后,我想获得每个集群的标签. 一个假的例子: 群集1:Fiat1,Fiat2 群集2:奔驰...

python使用sklearn中的SVM(入门级)【代码】

1,先说个例子,看看简单的使用sklean中的SVC(support vectors classification)。 from sklearn import svm import warnings warnings.filterwarnings("ignore", category=FutureWarning, module="sklearn", lineno=196)X = [[0, 0], [0, 1], [1, 0], [1, 1]] # training samples y = [0, 1, 2, 3] # training target clf = svm.SVC() # class clf.fit(X, y) # training the svc model print(clf.score([[0, 0], [0, 1], [1, 0...

python pip安装sklearn依赖

win10在线安装依赖: 已安装python环境 更新pip工具:进入python/Scripts目录,进入命令行:python -m pip install --upgrade pip 查看pip版本:pip --version 安装依赖: 安装顺序:numpy / scipy / matplotlib / scikit-learn 命令:pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ numpy centos离线安装依赖:

python – 在OSX中安装Sklearn【代码】

我已经使用以下命令安装了sklearn(我尝试了两种)但是当我包含它时,我收到以下错误:sudo port install py26-scikit-learn or: sudo port install py27-scikit-learn问题是:>>> import sklearn Traceback (most recent call last):File "<stdin>", line 1, in <module> ImportError: No module named sklearn你知道什么可能是错的吗? 答案:这对我有用:sudo port select --set python python26解决方法:确保使用正确的python二进...