首页 / PYTHON / python – 加载pickled分类器数据：词汇不适合错误

python – 加载pickled分类器数据：词汇不适合错误

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 加载pickled分类器数据：词汇不适合错误，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3914字，纯文字阅读大概需要6分钟。

内容图文

我在这里阅读了所有相关问题,但找不到可行的解决方案：

我的分类器创建：

class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer, self).build_analyzer()
        return lambda doc: english_stemmer.stemWords(analyzer(doc))

tf = StemmedTfidfVectorizer(analyzer='word', ngram_range=(1,2), min_df = 0, max_features=200000, stop_words = 'english')


def create_tfidf(f):
    docs = []
    targets = []
    with open(f, "r") as sentences_file:
        reader = csv.reader(sentences_file, delimiter=';')
        reader.next()
        for row in reader:
            docs.append(row[1])
            targets.append(row[0])

    tfidf_matrix = tf.fit_transform(docs)
    print tfidf_matrix.shape
    # print tf.get_feature_names()
    return tfidf_matrix, targets


X,y = create_tfidf("l0.csv")
clf = LinearSVC().fit(X,y)

_ = joblib.dump(clf, 'linearL0_3gram_100K.pkl', compress=9)

这个位有效,并生成.pkl,然后我尝试在不同的脚本中使用它：

class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer, self).build_analyzer()
        return lambda doc: english_stemmer.stemWords(analyzer(doc))

tf = StemmedTfidfVectorizer(analyzer='word', ngram_range=(1,2), min_df = 0, max_features=200000, stop_words = 'english')


clf = joblib.load('linearL0_3gram_100K.pkl')

print clf
test = "My super elaborate test string to test predictions"
print test + clf.predict(tf.transform([test]))[0]

我得到ValueError：词汇不适合或空！

编辑：错误跟踪请求

 File "classifier.py", line 27, in <module>
    print test + clf.predict(tf.transform([test]))[0]
  File "/home/ec2-user/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 1313, in transform
    X = super(TfidfVectorizer, self).transform(raw_documents)
  File "/home/ec2-user/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 850, in transform
    self._check_vocabulary()
  File "/home/ec2-user/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 271, in _check_vocabulary
    check_is_fitted(self, 'vocabulary_', msg=msg),
  File "/home/ec2-user/.local/lib/python2.7/site-packages/sklearn/utils/validation.py", line 627, in check_is_fitted
    raise NotFittedError(msg % {'name': type(estimator).__name__})
sklearn.utils.validation.NotFittedError: StemmedTfidfVectorizer - Vocabulary wasn't fitted.

解决方法:

好吧,我通过使用管道来解决问题,以便将我的矢量化器保存在.plk中

这是它的外观(也更简单)：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.externals import joblib
from sklearn.pipeline import Pipeline
import Stemmer
import pickle

english_stemmer = Stemmer.Stemmer('en')


class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer, self).build_analyzer()
        return lambda doc: english_stemmer.stemWords(analyzer(doc))


def create_tfidf(f):
    docs = []
    targets = []
    with open(f, "r") as sentences_file:
        reader = csv.reader(sentences_file, delimiter=';')
        reader.next()
        for row in reader:
            docs.append(row[1])
            targets.append(row[0])
    return docs, targets


docs,y = create_tfidf("l1.csv")
tf = StemmedTfidfVectorizer(analyzer='word', ngram_range=(1,2), min_df = 0, max_features=200000, stop_words = 'english')
clf = LinearSVC()

vec_clf = Pipeline([('tfvec', tf), ('svm', clf)])

vec_clf.fit(docs,y)

_ = joblib.dump(vec_clf, 'linearL0_3gram_100K.pkl', compress=9)

另一方面：

from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.externals import joblib
import Stemmer
import pickle

english_stemmer = Stemmer.Stemmer('en')

class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer, self).build_analyzer()
        return lambda doc: english_stemmer.stemWords(analyzer(doc))


clf = joblib.load('linearL0_3gram_100K.pkl')
test = ["My super elaborate test string to test predictions"]
print test + clf.predict(test)[0]

重要的事情要提到：

变换器是管道的一部分,就像tf一样,所以不需要重新声明一个新的矢量化器(之前是故障点,因为它需要训练数据中的词汇表),或者.transform()测试字符串.

内容总结

以上是互联网集市为您收集整理的python – 加载pickled分类器数据：词汇不适合错误全部内容，希望文章能够帮你解决python – 加载pickled分类器数据：词汇不适合错误所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/804251.html

来源：【匿名】

【上一篇】python – 从Pandas中的DatetimeIndex制作月份和年份列表【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 加载pickled分类器数据：词汇不适合错误】教程文章相关的互联网学习教程文章

Python3标准库：pickle对象串行化【代码】【图】

1. pickle对象串行化pickle模块实现了一个算法可以将任意的Python对象转换为一系列字节。这个过程也被称为串行化对象。可以传输或存储表示对象的字节流，然后再重新构造来创建有相同性质的新对象。1.1 编码和解码字符串中的数据第一个例子使用dumps()将一个数据结构编码为一个字符串，然后把这个字符串打印到控制台。它使用了一个完全由内置类型构成的数据结构。任何类的实例都可以pickled，如后面的例子所示。import pickle impor...

python-json&pickle模块（序列化模块）【代码】

什么叫序列化？就是把内存里的数据存到硬盘上。为什么要把了内存里的数据存在硬盘上？1.程序在运行,关闭了，内存数据丢失。2.下次程序再启动，再从硬盘上读回来，还是原来的格式的话，那是极好的。3.内存里的数据多为嵌套字典的形式。把内存数据取出来有什么意义？　　1.把内存数据，通过网络共享给其他人。　　2.可以跨平台、跨语言共享数据。eg:c、java、python#1.json 用法 # dumps 序列化import jsondata = {‘k1‘: 123, ‘k...

python 跨语言数据交互，json,pickle(序列化).【代码】【图】

Python中用于序列化的两个模块json 用于【字符串】和【python基本数据类型】间进行转换pickle 用于【python特有的类型】和【python基本数据类型】间进行转换Json模块提供了四个功能：dumps、dump、loads、loadpickle模块提供了四个功能：dumps、dump、loads、load json.dudmp ("[11,22]",open(‘db.txt‘,‘w‘)) #转换成字符串再保存到该文件。json.load(open(‘db.txt‘,‘r‘)) #打开该文件装成字符串。impo...

python 序列化 json pickle【代码】【图】

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。　　基本接口：　　pickle.dump(obj, file, [,protocol])　　注解：将对象obj保存到文件file中去。　　　　　protocol为序列化使用的协议版本，0：ASCII协议，所序列化的对象使用可打印的ASCII码表示；1：老式的...

python之路---23 模块 os sys pickle json【图】

一. os模块　　主要是针对操作系统的　　用于文件操作二. sys 模块　　模块的查找路径 sys.path 三 pickle 模块　　1. pickle.dumps(对象)　　　　　　　序列化把对象拍散成字节　　2.pickle.loads(字节)　　　　　　　反序列化,把字节整合成对象　　3.pickle.dump(对象,文件)　　　　把对象打散写入到文件, 序列化的内容不是给人看的　　　　多个对象时可以存入列表　　4.pickle.load(文件)　　　　读取文件...

python之pickle | 修改文件中字典中的值【图】

dump扔到硬盘上 load方法：加载到内存修改某个值：load加载到内存close在open w 打开再写就是覆盖，不关的情况下dump会出现两段再dump一下覆盖到硬盘close原文：http://www.cnblogs.com/lonely-buffoon/p/5986497.html

Python基础（12）_python模块之sys模块、logging模块、序列化json模块、pickle模块、shelve模块【代码】【图】

5、sys模块sys.argv 命令行参数List，第一个元素是程序本身路径 sys.exit(n) 退出程序，正常退出时exit(0) sys.version 获取Python解释程序的版本信息 sys.maxint 最大的Int值 sys.path 返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值 sys.platform 返回操作系统平台名称5.1　使用sys.argv进行登录判断，跳过 i/o阻塞#使用sys.argv进行登录判断，跳过 i/o阻塞 import s...

python 序列化pickle 和 encode的区别

我们把变量从内存中变成可存储或传输的过程称之为序列化。　　序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。　　反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。encode 编码和 decode 解码　　是在文件中读取或者写入数据，但是都是写入的字符串的二进制格式，没有数据类型的分别两者都是将数据转换为 bytes 但是　 pickle 变成二进制还能保持数据类型　　 enco...

python-时间模块,random、os、sys、shutil、json和pickle模块【代码】【图】

一、time与datetime模块time模块:　　时间戳:表示的是从1970年1月1日00:00:00开始按秒计算的偏移量,返回类型为float类型　　格式化时间字符串(Format String)　　结构化的时间(struct_time):struct_time元组共有9个元素(年月日时分秒,一年中的第几周,一年中的第几天,夏令时)# print(time.time())#1533962144.060534 # print(time.localtime())#time.struct_time(tm_year=2018, tm_mon=8, tm_mday=11, tm_hour=12, tm_min=36, tm_se...

python19 json模块 pickle模块 hashlib模块 hmac模块 shutil模块 shelve模块

复习‘‘‘项目开发规范ATM -- bin: 可执行文件 # run.py import os import sys BASE_DIR = os.path.dirname(os.path.dirname(__file__)) # ATM文件夹 sys.path.append(BASE_DIR) from core import main -- core：核心代码 # main.py from setting import settings from lib import mp # login.py # from bin.run import BASE_DIR # u_info = os.path.join(BASE_DIR, ‘db‘, ‘user.info‘) from setting.set...

[python]泡菜存储（pickle）【代码】

对于保存文本，如果要保存的数据像列表，字典甚至是类的实例时，普通的文件操作就会很复杂，如果把这些转化为字符串写入到文本文件中保存，把这个过程反过来读取的话就会异常麻烦，因此python提供了一个标准模块pickle。　　pickle模块翻译为泡菜，python使用这个模块，可以非常容易地将列表、字典这类复杂数据类型存储为文件，把所有python的对象转化为二进制的形式存放，这个过程称为pickling，二进制形式转换回对象的过程为unpi...

python常用模块之json和pickle模块

json模块json.dumps 将 Python 对象编码成 JSON 字符串json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。 pickle pickle.dump(obj, file, [,protocol])含义：pickle.dump（对象，文件，[使用协议]）将要持久化的数据“对象”，保存到“文件”中，使用有3种协议，索引0为ASCII，1为旧式二进制，2为新式二进制协议，不同之处在于2要更高效一些。默认dump方法使用0做协议pickle.load(file)含义：pickle....

Python自动化运维之10、模块之json、pickle、XML、PyYAML、configparser、shutil【代码】【图】

序列化Python中用于序列化的两个模块json 用于【字符串】和【python基本数据类型】间进行转换pickle 用于【python特有的类型】和【python基本数据类型】间进行转换Json模块提供了四个功能：dumps、dump、loads、loadpickle模块提供了四个功能：dumps、dump、loads、loadjson模块# json()将字符串形式的列表或字典转换为list或dict类型，json是所有语言相互通信的方式# 注意外层字符形式一定是‘‘单引号,‘{"a":"xiao","...

【python】-- json & pickle、xml、requests、hashlib、shelve、shutil、configparser、subprocess【代码】

json & picklePython中用于序列化的两个模块json 用于【字符串】和【python基本数据类型】间进行转换pickle 用于【python特有的类型】和【python基本数据类型】间进行转换Json模块提供了四个功能：dumps、dump、loads、load1、dumps序列化和loads反序列化dumps()序列化import json #导入json模块 info = {‘name‘:"zhangqigao","age":22 }with open("test.txt","w") as f: #以普通模式写入data = json.dumps(info)...

Python之pickle【代码】

Pickle模块可以序列化对象并保存到磁盘中，并在需要的时候读取出来，任何对象都可以执行序列化操作。在机器学习中，我们常常需要把训练好的模型存储起来，这样在进行决策时直接将模型独处，而不需要重新训练模型，这样就大大节约了时间。pickle模块常用函数dump(obj,file,[,protocol])将obj对象序列化存入已经打开的file中load(file)将file中的对象序列化读出dumps(obj,[,protocol])将obj对象序列化为string形式，而不是存入文件中...

首页 / PYTHON / python – 加载pickled分类器数据：词汇不适合错误

python – 加载pickled分类器数据：词汇不适合错误

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 加载pickled分类器数据：词汇不适合错误】教程文章相关的互联网学习教程文章

Python3标准库：pickle对象串行化【代码】【图】

python-json&pickle模块（序列化模块）【代码】

python 跨语言数据交互，json,pickle(序列化).【代码】【图】

python 序列化 json pickle【代码】【图】

python之路---23 模块 os sys pickle json【图】

python之pickle | 修改文件中字典中的值【图】

Python基础（12）_python模块之sys模块、logging模块、序列化json模块、pickle模块、shelve模块【代码】【图】

python 序列化pickle 和 encode的区别

python-时间模块,random、os、sys、shutil、json和pickle模块【代码】【图】

python19 json模块 pickle模块 hashlib模块 hmac模块 shutil模块 shelve模块

[python]泡菜存储（pickle）【代码】

python常用模块之json和pickle模块

Python自动化运维之10、模块之json、pickle、XML、PyYAML、configparser、shutil【代码】【图】

【python】-- json & pickle、xml、requests、hashlib、shelve、shutil、configparser、subprocess【代码】

Python之pickle【代码】

PYTHON - 相关标签

错误 - 相关标签

加载 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程