首页 / PYTHON / python-如何处理熊猫中的插补和热编码？

python-如何处理熊猫中的插补和热编码？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-如何处理熊猫中的插补和热编码？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1871字，纯文字阅读大概需要3分钟。

内容图文

我正在尝试对我的数据集同时应用插补和热编码.我知道在应用归因时,数据的维度可能会发生变化,因此我会手动进行处理.该模型运行良好,但随后我决定应用热门编码.现在,该程序无法编译.我收到尺寸不匹配错误.

test_X = pd.get_dummies(test)
train_X = pd.get_dummies(train)

col_with_missingVal = (col for col in train_X.columns if train_X[col].isnull().any())
for col in col_with_missingVal:
    train_X[col + 'is_missing'] = train_X[col].isnull()
    test_X[col + 'is_missing'] = test_X[col].isnull()

#impute the data
imputer = Imputer()
imp_train_X = pd.DataFrame(imputer.fit_transform(train_X))
imp_test_X = pd.DataFrame(imputer.fit_transform(test_X))
imp_train_X.columns = train_X.columns
imp_test_X.columns = test_X.columns

#Fit the model
my_model = RandomForestRegressor()
my_model.fit(imp_train_X, train_y)

# Use the model to make predictions
predicted_prices = my_model.predict(imp_test_X)

我在代码的最后一行收到以下错误：

ValueError: Number of features of the model must match the input. Model n_features is 293 and input n_features is 274

此错误的原因是什么,如何解决？

解决方法:

问题出在前两行. pd.get_dummies()将返回不同的列以进行训练并测试其中的数据是否不同.

例如,如果在火车中,一列包含3个类别,则将为它们创建3列,但是可能会发生测试数据在该特定列中仅包含2个类别的情况,因为在pd.get_dummies( ).这将导致不同数量的列.

您可以在这里做几件事：

1)最简单的方法是在训练测试拆分之前对整个数据使用pd.get_dummies(),然后拆分数据.但是不建议这样做,因为它会将测试数据的信息泄漏到模型中.

2)如果可以使用scikit的开发版本,请使用CategoricalEncoder执行一种热编码.

3)使用当前scikit版本中的LabelEncoder OneHotEncoder的组合来实现相同的目的.例如,参见my other answer.

注意

也只对测试数据调用transform(),从不对fit()进行调用.做这个：-

# If you call fit_transform(), the imputer will again learn the 
# new mean from the test data
# Which will lead to differences and data leakage.
imp_test_X = pd.DataFrame(imputer.transform(test_X))

内容总结

以上是互联网集市为您收集整理的python-如何处理熊猫中的插补和热编码？全部内容，希望文章能够帮你解决python-如何处理熊猫中的插补和热编码？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/690934.html

来源：【匿名】

【上一篇】python-将日期时间字段添加到RecArray 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-如何处理熊猫中的插补和热编码？】教程文章相关的互联网学习教程文章

python的编码规范【摘】

模块名：小写字母，单词之间用_分割ad_stats.py包名：和模块名一样类名：单词首字母大写AdStatsConfigUtil全局变量名（类变量，在java中相当于static变量）：大写字母，单词之间用_分割NUMBERCOLOR_WRITE普通变量：小写字母，单词之间用_分割this_is_a_var实例变量：以_开头，其他和普通变量一样_price _instance_var普通函数：和普通变量一样：get_name()count_number()ad_stat()私有函数（外部访问会报错）：以__开头（2个下划...

Windows下Python字符串编码问题【代码】

Python语言实际上有三种字符串，通常意义的字符串(str)，Unicode字符串(unicode)和抽象类basestring，其中basestring不可实例化。在Windows系统下的CPython解释器输入代码：>>> st1 = ‘中文‘>>> st1 ‘\xd6\xd0\xce\xc4‘>>> type(st1) <type ‘str‘> >>> st2 = st1.decode(‘gbk‘) >>> st2 u‘\u4e2d\u6587‘>>> type(st2) <type ‘unicode‘> >>> st3 = st2.encode(‘utf-8‘) >>> st3 ‘\xe4\xb8\xad\xe6\x96\x87‘>>> ty...

python文件编码转换流程【图】

python文件编码转换流程python默认字符创编码是unicodepython文件编码跟变量编码是两个东西exampl#-*- coding:utf-8 -*-ss = "你好" #这个变量的默认编码是unicode#此python文件的默认编码是utf-8 原文：https://www.cnblogs.com/hhjmessage/p/8302158.html

Python中文编码问题

中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？我们要知道python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就必然是以某种编码形式存储代码的，python默认会认为源代码文件是a...

Python3 字符编码【代码】

编码字符串是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。由于计算机...

python day 2 数据类型、字符编码、文件处理【代码】

一引子1 什么是数据？x=10，10是我们要存储的数据2 为何数据要分不同的类型　　数据是用来表示状态的，不同的状态就应该用不同的类型的数据去表示3 数据类型　　数字（整形，长整形，浮点型，复数）　　字符串　　字节串：在介绍字符编码时介绍字节bytes类型　　列表　　元组　　字典　　集合4 按照以下几个点展开数据类型的学习#一：基本使用1 用途2 定义方式3 常用操作+内置的方法#二：该类型总结1 存一个值or存多个值只能...

Python3 读写文件碰到的编码问题【图】

body {font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif;font-size: 10.5pt;line-height: 1.5; } html, body {} h1 {font-size:1.5em;font-weight:bold; } h2 {font-size:1.4em;font-weight:bold; } h3 {font-size:1.3em;font-weight:bold; } h4 {font-size:1.2em;font-weight:bold; } h5 {font-...

Python PEP8 编码规范中文版

原文链接：https://legacy.python.org/dev/peps/pep-0008/参考：https://blog.csdn.net/ratsniper/article/details/78954852Code lay-out 代码布局 Indentation 缩进 Tabs or Spaces 制表符还是空格 Maximum Line Length 行的最大长度 Should a line break before or after a binary operator 在二元运算符之前应该换行吗 Blank Lines 空行 Source File Encoding 源文件编码 Imports 导入 Module level du...

python笔记二（数据类型和变量、编码方式、字符串的编码、字符串的格式化）【代码】

一、数据类型　　python可以直接处理的数据类型有：整数、浮点数、字符串、布尔值、空值。　　整数　　浮点数　　字符串：双引号内嵌套单引号，可以输出 i‘m ok.　　　　　　也可以用\来实现，\n 换行 \t table 　　　　　　多行字符串用 ‘‘‘ ‘‘‘　　布尔值：可以对布尔值进行与或非运算/ 与and 或or 非not　　空值二、变量　　 a = 1/ a = "nadech" 与java不同，python在声明一个变量的时候不用指定变量的类型，直接...

python 学习之Windows 下的编码处理！【代码】

问题1： 1 Non-ASCII character ‘\xe9‘in file 问题原因：程序编码上出现问题解决方法：在程序头部加上代码 #-*- coding: UTF-8 -*- 设置代码编码为UTF8即刻正常运行问题2：windows 下print 乱码错误原因：源码文件的编码格式为utf-8，但是window的本地默认编码是gbk，所以在控制台直接打印utf-8的字符串当然是乱码了！解决方法：比较通用的解决方法完美兼容windows 和 ubuntuimport sys type = sys.getfilesystemencoding()...

python Day3 集合文件处理函数字符编码递归高级函数【代码】【图】

集合集合是一个无序的，不重复的数据组合，它的主要作用如下：去重，把一个列表变成集合，就自动去重了关系测试，测试两组数据之前的交集、差集、并集等关系常用操作s = set([3,5,9,10]) #创建一个数值集合 t = set("Hello") #创建一个唯一字符的集合 a = t | s # t 和 s的并集 b = t & s # t 和 s的交集 c = t – s # 求差集（项在t中，但不在s中） d = t ^ s ...

python2--编码问题汇总【代码】

# unicode编码字符串转码utf8 aaa = "\xxx\xxx\xxx\xxx"print(aaa.encode(‘utf-8‘).decode(‘unicode_escape‘))# 字典类型的unicode编码类型，转utf8 # 1、可以用json.loads() # 2、from ast import literal_eval res = literal_eval(str(字典).replace(‘u\‘‘, ‘\‘‘).decode("unicode-escape")) print(res) 原文：https://www.cnblogs.com/lutt/p/13579844.html

python基础之Day7part2 史上最清晰字符编码理解

二.字符编码基础知识：文本编辑器存取文件原理与py执行原理异同：存/写：进入文本编辑器写内容保存后内存数据刷到硬盘取/读：进入文本编辑器找到内容从硬盘读到内存 notepad把文件内容打印到屏幕上（py启动解释器，把py当作普通文件读到内存，最后识别语法，执行）你往文本编辑里写汉字，内存里存的是计算机能识别的二进制，按照当时写的标准（Unicode）再反解打印出来，计算机并不识别是哪国语言字符编码：将人类的字符转换成...

Python解码和编码【代码】【图】

decode是解码，encode时编码在Python2中默认时ASCLL，在Python3中默认时Unicode gbk转向utf-8：先将gbk解码成Unicode，在编码成utf-8。utf-8转向gbk：先将utf-8解码成Unicode，在编码成gbk。 Python2代码： 1#-*- coding:utf-8 -*- 2 3‘‘‘ 4@auther: Starry5@file: py2ende.py 6@time: 18-1-12 下午9:52 7‘‘‘ 8 9‘‘‘10Python2中默认是ASCII 11‘‘‘12import sys 1314print(sys.getdefaultencoding()) 1516 s = ‘你好...

python基础知识（四）编码【代码】

#Autor:Decade mag=‘我爱北京天安门‘ print(mag) print(mag.encode(encoding=‘utf-8‘)) #采用utf-8编码格式 print(mag.encode(encoding=‘utf-8‘).decode(encoding=‘utf-8‘))#不使用utf-8的编码格式原文：https://www.cnblogs.com/Good-Life/p/8601053.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-如何处理熊猫中的插补和热编码？

python-如何处理熊猫中的插补和热编码？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-如何处理熊猫中的插补和热编码？】教程文章相关的互联网学习教程文章

python的编码规范【摘】

Windows下Python字符串编码问题【代码】

python文件编码转换流程【图】

Python中文编码问题

Python3 字符编码【代码】

python day 2 数据类型、字符编码、文件处理【代码】

Python3 读写文件碰到的编码问题【图】

Python PEP8 编码规范中文版

python笔记二（数据类型和变量、编码方式、字符串的编码、字符串的格式化）【代码】

python 学习之Windows 下的编码处理！【代码】

python Day3 集合文件处理函数字符编码递归高级函数【代码】【图】

python2--编码问题汇总【代码】

python基础之Day7part2 史上最清晰字符编码理解

Python解码和编码【代码】【图】

python基础知识（四）编码【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程