首页 / PYTHON / python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源

python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6086字，纯文字阅读大概需要9分钟。

内容图文

python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源

我目前正在尝试使用Python和Scikit-learn构建一些文本分类工具.

我的文字不是英语,因此不受茎分解或其他基于英语的降维处理的常规处理.

结果,TfIdf矩阵变得很大(150,000×150,000)可以使用常规PC进行处理,但是在它们上运行网格搜索会太多,因此我寻求Amazon Web Service的帮助来运行网格搜索. (我的参数集也很大)

这是我的代码：

 # coding: utf-8  
    import os, json, codecs, nltk  
    import numpy as np  
    from sklearn.feature_extraction.text import TfidfVectorizer,  CountVectorizer,TfidfTransformer  
    from sklearn.grid_search import GridSearchCV  
    from time import time  
    from sklearn.pipeline import Pipeline  
    from sklearn.naive_bayes import MultinomialNB  
    print("Importing dataset...")  
    with open('y_data.json','r') as fp:  
        y = json.load(fp)  
    with open('dataset.json','r') as fp:  
        dataset = json.load(fp)  
    print("Importing stop words...")  
    with codecs.open('stopword.txt','r','utf-8') as fp:  
    stopword = []  
    for w in fp:  
        stopword.append(w.strip())  
    light_st = set(stopword)  
    with codecs.open('st_data.txt','r','cp874') as fp:  
    for w in fp:  
        stopword.append(w.strip())  
    heavy_st = set(stopword)  
    def pre_process_1(text):  
        return text.replace("|"," ")  
    def tokenize_1(text):  
        return text.split()  
    pipeline = Pipeline([('vec', CountVectorizer(encoding='cp874', preprocessor=pre_process_1, tokenizer=tokenize_1, stop_words=heavy_st, token_pattern=None)),('tfidf', TfidfTransformer()), ('clf',       MultinomialNB())])
    parameters = {  
    'vec__max_df': (0.5, 0.625, 0.75, 0.875, 1.0),  
    'vec__max_features': (None, 5000, 10000, 20000),  
    'vec__min_df': (1, 5, 10, 20, 50),  
    'tfidf__use_idf': (True, False),  
    'tfidf__sublinear_tf': (True, False),  
    'vec__binary': (True, False),  
    'tfidf__norm': ('l1', 'l2'),  
    'clf__alpha': (1, 0.1, 0.01, 0.001, 0.0001, 0.00001)  
    }  
    if __name__ == "__main__":  
        grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=2)  
        t0 = time()  
        grid_search.fit(dataset, y)  
        print("done in {0}s".format(time() - t0))  
        print("Best score: {0}".format(grid_search.best_score_))  
        print("Best parameters set:")  
        best_parameters = grid_search.best_estimator_.get_params()  
        for param_name in sorted(list(parameters.keys())):  
            print("\t{0}: {1}".format(param_name, best_parameters[param_name]))

这是我的软件环境的详细信息：

> Python3.4.2
> scikit-learn 0.15.2(随Pip一起安装)
> Ubuntu Server14.04 LTS,64位(使用HVM)
>在ec2 r3.8xlarge实例上尝试

最初,我使用一个较小的实例(r3.2xlarge； 8个内核)运行模型,但从计算中发现,这将花费相当长的时间(2天).因此,我决定扩展计算机并使用最大的实例(我使用r3是因为我的脚本占用大量内存)；但是,它的处理速度没有我想象的那么快.

当我尝试监视CPU负载(观察-n 5正常运行时间)…时,我发现即使将其运行一段时间,平均CPU负载也不会超过9. (据我了解,一台32核机器在充分利用其所有核时应为32左右).

我尝试改变

n_job

参数到具有相同结果的各种数字(8、32、128). (但是我认为该脚本尝试运行所指示的尽可能多的作业,因为当我终止该过程时,我会看到类似“ Process ForkPoolWorker-30：”的消息,并且其回溯信息会越过屏幕)

使用ps x -C python3.4命令进行进一步检查,得出只有8个python进程正在运行.我推断这可能是python或OS的某种限制(我使用没有很多内核的t2.micro实例构建AMI),因此,我决定重做从头开始重建环境的工作,包括编译Python使用c3.4xlarge,并将操作系统更改为Amazon Linux(我认为是Fedora的一个分支),以便与硬件更好地兼容.

但是,我的脚本仍然从未超过8个内核.
最后,使用来自Scikit-learn网站的演示文本分类代码：http://scikit-learn.org/stable/auto_examples/grid_search_text_feature_extraction.html
(它使用SGDClassifier而不是MultinomialNB)可以与所有32个内核完美配合！

那么…也许与网格搜索算法和朴素贝叶斯分类器有关？

我正在考虑提交一个错误,但是想首先知道这是否是朴素贝叶斯的预期行为,或者我的代码有错吗？

更新

我找不到一种方法来直接测试内存带宽是否是罪魁祸首.但是我尝试通过各种方式对并行代码和CPU使用时间进行计时,以找出瓶颈的发生位置.

实验1：仅执行向量化和转换.

使用我的真实数据作为输入(150,000个文本文档；每个文档包含大约130个单词)
参数空间约为400.
多线程由Joblib(与Scikit-learn使用的模块相同)完成.我有：
使用8个线程：完成841.017783164978 s,并使用24.636999999999993％的CPU.
使用16个线程：在842.9525656700134秒中完成,并使用24.700749999999985％的CPU.
使用所有32个线程：在857.024197101593中完成,并使用24.242250000000013％的CPU.

结果清楚地表明,向量化过程无法随着处理能力的提高而扩展.

实验2：这次,我仅对预矢量化数据执行MultinomialNB.

像以前一样使用约400的参数空间,我得到：
使用8个线程：在2102.0565922260284中完成,并使用25.486000000000054％的CPU.
使用16个线程：1385.6887295246124 s完成,并使用49.83674999999993％的CPU.
使用所有32个线程：在1319.416403055191中完成,并使用89.90074999999997％的CPU.

从8线程到16线程的过渡显示出巨大的进步.但是,随着线程数增加到32,完成的总时间只会略微缩短,而CPU使用率却大大增加.这一点我不太了解.

实验3：我将这两个过程结合在一起.

使用8个线程：在3385.3253166675568中完成,并使用25.68999999999995％的CPU.
使用16个线程：完成2066.499200105667 s,并使用49.359249999999996％的CPU.
使用所有32个线程：在2018.8800330162048中完成,并使用54.55375000000004％的CPU.

我从自己的并行代码获得的时间与GridsearchCV的时间之间存在一些差异,但这可能是因为我在代码中所做的简化(我没有进行交叉验证或像网格搜索)

结论

根据我的测试,我得出结论. (如果我错了,请纠正我)

>向量化阶段使用更多的内存；因此,最有可能使带宽饱和.从完成时间和CPU利用率可以看出,它遇到了某种瓶颈并且没有扩展.但是,这是一个相对较快的过程. (我消除了IO绑定,因为所有数据都存储在RAM中,并且这段时间的内存使用率约为30％)
> MultinomialNB使用的内存比矢量化器要少；大部分计算似乎是在内核中进行的.因此,它可以比矢量化器更好地缩放(8> 16),但是在那之后,它也遇到了一些瓶颈,并且MultinomialNB比矢量化器花费更多的时间.
>将两个过程组合在一起时,完成时间显示出与MultinomialNB相同的趋势,因为在我看来,内存带宽可能是矢量化阶段的瓶颈,但与MultinomialNB相比,该阶段相对较短.因此,如果并发任务数较少,则可以同时进行这两个阶段,而不会使带宽饱和,但是当进程数足够高时,将有足够数量的并发进程执行矢量化以达到饱和带宽；从而迫使操作系统减少运行过程. (仅解释我先前发现的运行Python进程的8-9)
>我不太确定,但是我认为SGDClassifier可以使用100％CPU的原因是因为SGDClassifier的核内处理时间比MultinomialNB长得多.因此,在每次迭代中,大部分时间都用于计算核内SGDClassifier而不是进行向量化,并且SGDClassifier需要花费很长时间进行计算这一事实减少了许多工作人员同时进入向量化阶段的机会(因为每次向量化任务相对较短,但占用大量内存)

我认为现在最好的选择是进行集群计算.

内容总结

以上是互联网集市为您收集整理的python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源全部内容，希望文章能够帮你解决python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/679306.html

来源：【匿名】

【上一篇】python-对元组数组进行排名【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

本文K折验证拟采用的是Python 中 sklearn 包中的 StratifiedKFold 方法。方法思想详见：http://scikit-learn.org/stable/modules/cross_validation.htmlStratifiedKFold isa variation of k-fold which returns stratified folds:each set contains approximately the same percentage of samples of each target class as the complete set.【译】StratifiedKFold 是一种将数据集中每一类样本的数据成分，按均等方式拆分的方法。其...

python sklearn画ROC曲线

preface：最近《生物信息学》多次谈到AUC，ROC这两个指标，正在做的project，要求画ROC曲线，sklearn里面有相应的函数，故学习学习。AUC:ROC:具体使用参考sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.htmlhttp://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#example-model-selection-plot-roc-crossval-pyhttp://www.tuicool.com/articles/b22eYz(博...

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

使用清华源快速下载：pip install sklearn -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn包可替换成其他包，例如numpy，TensorFlow等包，一次不行，多重复下载几次（亲测可行）pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple 原文：https://www.cnblogs.com/zhff/p/13047751.html

python-Sklearn神经网络问题【代码】

我正在做一些神经网络练习,并且只停留在一个问题上.我的网络无法预测正确的结果,即使它说培训分数是97％. 这是我的代码：# Import `datasets` from `sklearn` from sklearn import datasets import pandas as pd from sklearn.model_selection import train_test_split # Import `train_test_split` from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neural...

看看pyhton的sklearn机器学习算法【代码】【图】

免费学习推荐：python视频教程导入必要通用模块import pandas as pdimport matplotlib.pyplot as pltimport osimport numpy as npimport copyimport reimport math一机器学习通用框架：以knn为例#利用邻近点方式训练数据不太适用于高维数据from sklearn.model_selection import train_test_split#将数据分为测试集和训练集from sklearn.neighbors import KNeighborsClassifier#利用邻近点方式训练数据#1.读取数据data=pd.read_exc...

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

参考文章 Python机器学习笔记：sklearn库的学习 ML神器：sklearn的快速使用机器学习与Sklearn的初识传统的机器学习任务从开始到建模的一般流程是：获取数据 → 数据预处理 → 训练建模 → 模型评估 → 预测，分类。 Skikit-learn算法库由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：常用的回归：线性、决策树、SVM、KNN ；常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；既可以回归也可以分类的算法：...

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略目录 TSNE简介 TSNE使用方法 TSNE代码实现 TSNE简介 t-分布随机邻居嵌入。t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转化为联合概率，并试图最小化低维嵌入和高维数据联合概率之间的Kullback-Leibler差异。t-SNE有一个非凸的代价函数，即通过不同的初始化，我们可以得到不同的结果。强烈建议使用另一种降维方法(如...

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

sklearn使用方法，包括从制作数据集，拆分数据集，调用模型，保存加载模型，分析结果，可视化结果 1 import pandas as pd2 import numpy as np3 from sklearn.model_selection import train_test_split #训练测试集拆分4 from sklearn.linear_model import LogisticRegression #逻辑回归模型5 import matplotlib.pyplot as plt #画图函数6 7 from sklearn.externals import joblib #保存加载模型函数joblib8 9 #以下为sklearn评测...

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

本人在此就不搬运书上关于密度聚类的理论知识了，仅仅实现密度聚类的模板代码和调用skelarn的密度聚类算法。有人好奇，为什么有sklearn库了还要自己去实现呢？其实，库的代码是比自己写的高效且容易，但自己实现代码会对自己对算法的理解更上一层楼。 #调用科学计算包与绘图包 import numpy as np import random import matplotlib.pyplot as plt # 获取数据 def loadDataSet(filename):dataSet=np.loadtxt(filename,dtype=np.flo...

python 使用sklearn绘制roc曲线选取合适的分类阈值

https://zhuanlan.zhihu.com/p/26293316 比如, 我已经初步训练好了一个模型,现在我想用这个模型从海量的无标记数据集挖掘出某一类数据A,并且想要尽量不包含其他所有类B 但我挖掘出的结果必然包含错误的,我拿出的A越多,同时附带的分类错数据B也就越多, 一般,拿出的A占总体比例越大,拿出的B类也会占总体比例越大,这个比例的变化一般是单调非线性的,且根据实际情况,我们可接受的比例也不同简单来说,不同的recall对应不同的precision,...

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样：将训练/测试数据集划分n_splits个互斥子集，每次只用其中一个子集当做测试集，剩下的（n_splits-1）作为训练集，进行n_splits次实验并得到n_splits个结果。注：对于不能均等分的数据集，前n_samples%n_spllits子集拥有n_samples//n_spllits+1个样本，其余子集都只有n_samples//n_spllits个样本。（例10行数据分3份，只有一份可分4行，其他均为3行）1 sklearn.model_se...

首页 / PYTHON / python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源

python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-在多核计算机上的sklearn.naive_bayes.MultinomialNB上执行网格搜索不会使用所有可用的CPU资源】教程文章相关的互联网学习教程文章

Python 之 sklearn 交叉验证数据拆分

python sklearn画ROC曲线

Python清华源快速下载sklearn、numpy、TensorFlow等包【代码】

python-Sklearn神经网络问题【代码】

看看pyhton的sklearn机器学习算法【代码】【图】

简介Python的sklearn机器学习算法【代码】【图】

Python中机器学习神器——sklearn模块【代码】【图】

Python语言编程学习：sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略【代码】

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）【代码】【图】

密度聚类python实现(模板代码+sklearn代码)【代码】【图】

python 使用sklearn绘制roc曲线选取合适的分类阈值

Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别【代码】

[转][python sklearn模型中random_state参数的意义]

python调用sklearn模块实现朴素贝叶斯(NBC)——以新闻分类为例【图】

python编程之sklearn.preprocessing.LabelBinarizer()的用法解析【代码】【图】

PYTHON - 相关标签

执行 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程