首页 / PYTHON / python-熊猫：从具有不同变量顺序的多个文件中读取

python-熊猫：从具有不同变量顺序的多个文件中读取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-熊猫：从具有不同变量顺序的多个文件中读取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2433字，纯文字阅读大概需要4分钟。

内容图文

我有许多文件想读取到一个熊猫数据框中.示例文件可能如下所示：

variable_1_name
variable_2_name
...
variable_n_name
0.0  0.5  0.3  ...  0.8
...
1.0  4.5  6.5  ...  1.0

因此,文件在文件顶部具有一个变量名列表(每行一个),然后数据以空格分隔的表的形式显示,每行n个值.

有几个问题：

1)每个文件中有不同数量的变量.并非每个文件中都存在所有变量.

2)变量在文件之间的顺序可能不同.

我如何将所有这些数据读入panadas数据框中,同时在文件之间匹配正确的数据？

解决方法:

扩展Pal的答案：最好的方法是从csv文件中读取数据.那么,为什么不将文件转换为csv文件(甚至更好,将csv文件类似的对象存储在内存中),然后让熊猫来做些脏活呢？

try:
    import io  # python3
except ImportError:
    import cStringIO as io  # python2
import pandas as pd

DELIMITER = ','

def pd_read_chunk(file):
    """
    Reads file contents, converts it to a csv file in memory
    and imports a dataframe from it.
    """
    with open(file) as f:
        content = [line.strip() for line in f.readlines()]
        cols = [line for line in content if ' ' not in line]
        vals = [line for line in content if ' ' in line]
        csv_header = DELIMITER.join(cols)
        csv_body = '\n'.join(DELIMITER.join(line.split()) for line in vals)
        stream = io.StringIO(csv_header + '\n' + csv_body)
        return pd.read_csv(stream, sep=DELIMITER)


if __name__ == '__main__':
    files = ('file1', 'file2', )
    # read dataframe from each file and concat all resulting dataframes
    df_chunks = [pd_read_chunk(file) for file in files]
    df = pd.concat(df_chunks)
    print(df)

如果您尝试从Thom Ives‘答案中提取示例文件,则脚本将返回

     A    B    C    D    E
0  1.0  2.0  3.0  NaN  NaN
1  1.1  2.1  3.1  NaN  NaN
0  NaN  2.2  NaN  4.2  5.2
1  NaN  2.3  NaN  4.3  5.3

编辑：实际上,我们不需要逗号定界符-我们可以重用空格作为定界符,因此我们可以同时压缩和加速转换.这是上述代码的更新版本,其代码更少且运行速度更快：

try:
    import io  # python3
except ImportError:
    import cStringIO as io  # python2
import pandas as pd


def pd_read_chunk(file):
    """
    Reads file contents, converts it to a csv file in memory
    and imports a dataframe from it.
    """
    with open(file) as f:
        content = [line.strip() for line in f.readlines()]
        cols = [line for line in content if ' ' not in line]
        vals = [line for line in content if ' ' in line]
        csv_header = ' '.join(cols)
        csv_lines = [csv_header] + vals
        stream = io.StringIO('\n'.join(csv_lines))
        return pd.read_csv(stream, sep=' ')


if __name__ == '__main__':
    files = ('file1', 'file2', )
    # read dataframe from each file and concat all resulting dataframes
    df_chunks = [pd_read_chunk(file) for file in files]
    df = pd.concat(df_chunks)
    print(df)

内容总结

以上是互联网集市为您收集整理的python-熊猫：从具有不同变量顺序的多个文件中读取全部内容，希望文章能够帮你解决python-熊猫：从具有不同变量顺序的多个文件中读取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/685034.html

来源：【匿名】

【上一篇】python-有没有办法关闭PdfFileReader打开的文件？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-熊猫：从具有不同变量顺序的多个文件中读取】教程文章相关的互联网学习教程文章

python的变量【代码】

变量用来存储数据，可以是数字也可以是其它类型。定义变量的格式必须是英文、数字和"_"下划线的组合，不能以数字开头。不能以关键字做变量名。 a = 1 定义变量a 是一个整数。b=‘python‘ 定义变量b 是一个字符串。一个变量可以多次赋值，也可以是不同的变量。name1 = ‘xiaowang‘ name2 = name1 name1 = ‘wanglihong‘ print(name1,name2) #wanglihong,xiaowang 可以把变量name1的值赋值给name2，那么name1修改了以后为什么nam...

Python的安装以及环境变量的修改【图】

一、什么是PythonPython是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。二、Python简介及应用领域编辑Python是一种解释型脚本语言，可以应用于以下领域： Web 和 Internet开发科学计算和统计人工智能教育桌面界面开发软件开发后端开发网络爬虫三、Python安装Python官网:https://www.python.o...

Python中使用动态变量名的方法

如果要写一个程序，让x1为1，x2为2，然后直到x100为100，你会怎么做？在C这种静态语言里，变量名这个标识符实际上会被编译器直接翻译成内存地址，所以除了手动设置每个变量的值以外，没办法做到这点。而Python这种动态语言则是可以做到的。最容易想到的自然是eval，但是实际上根本不需要这种危险的东西，因为Python的变量名就是一个字典的key而已。要获取这个字典，直接用locals和globals函数即可。因此这个程序可以这样实现：复制...

第六章 python语法入门之变量【代码】

一、变量的含义# 变量就是可以变化的量，量指的是事物的状态，比如人的年龄、性别，游戏角色的等级、金钱等等二、使用变量的目的# 为了让计算机能够像人一样去记忆事物的某种状态，并且状态是可以发生变化的详细地说： # 程序执行的本质就是一系列状态的变化，变是程序执行的直接体现，所以我们需要有一种机制能够反映或者说是保存下来程序执行时状态，以及状态的变化。三、变量的使用1.变量基本使用# 原则：先定义，后引用 name...

python 变量作用域

python能够改变变量作用域的代码段是def（函数）、class（类）、lamda.if/elif/else、try/except/finally、for/while 并不能涉及变量作用域的更改，也就是说他们的代码块中的变量，在外部也是可以访问的，这点与有{}标注界限的其他类型语言不通。特别注意。变量搜索路径是：本地变量->全局变量原文：http://www.cnblogs.com/xiaobaixian/p/Python.html

python跨模块使用全局变量的实现方法【代码】

Python 中 global 关键字可以定义一个变量为全局变量，但是这个仅限于在当前模块（py文件）中调用全局变量，在其他py文件再次使用 global x 也是无法访问到的，因为在这个py模块中并没有一个叫做x的变量，于是就会报错未定义。我们知道Python使用变量的时候是可以直接使用的a = {} b = 111 c = "333"而不需要先定义var a var b = 2 var c = ‘222‘ 这样的话，在函数内部就无法操作外部的变量了，因为它总会认为你是在定义一个新...

python中局部变量的定义【代码】

1/ 局部变量的定义在所有函数内定义的变量叫局部变量,在函数外的都是全局变量.for guessTaken in range(1,2):print(‘Take a guess‘)guess = int(input())if(guess < secretNumber):print(‘your guess too low‘)elif(guess > secretNumber):print(‘your guess too high‘)else:breakif(guess == secretNumber):print(‘oK‘) else:print(‘fail‘)一定注意,上面描述的guess 是全部变量,因为它没有在函数中定义,故不能算局部...

Python 极简教程（四）变量与常量【代码】【图】

变量和常量在 Python 中没有常量与变量之分。只有约定成俗的做法：全大写字母的名称即为常量：PI = 3.1415926全小写字母的名称为变量：name = ‘nemo‘变量与常量都是用来在程序运行过程中，储存需要用到的值的。变量在运行过程中会变化，用于存储临时的值；常量在运行过程中不变，用于储存固定的值。一般常量都是放在顶部，作为全局使用。然而只是约定而已，Python 并没有语法上的强制要求，所以其实常量也可以变的，不过一...

python main函数中变量默认为global variable

在python的main函数中的变量默认为全局变量，而其他的def函数中的变量则默认为局部变量。当然，局部变量会优先于全局变量，在执行formal_print(t_global)语句时便可看出。测试代码如下：#!/usr/bin/env python#coding=utf-8#测试python的全局变量，局部变量的机制def formal_print(s_global): #常规的传参用法，传递参数进行print，变量名可任意 print "formal_print: ", s_global return def global_print(): #无参数传递，直接...

python中数据类型的转换and变量缓存机制【代码】

1.Number(int float bool complex)数据类型转换1.1强制类型转换 var1 = 10var2 = 1.3var3 = Truevar4 = 4+3jvar5 = "9988" 1.1.1转换成整型:浮点型,布尔型,纯数字字符串均可转换　　 res=int(var2)　　#1　　res=int(var3)　　#Ture=>1 False=>0　　res=int(var4)　　#复数不可转为整型　　res=int(var5)　　#9988,但带小数点的纯数字字符串不可转1.1.2转换成浮点型:整型,布尔型,纯数字字符串均可转换为float　　res=float(var1)　...

python基础局部变量、全局变量

局部变量的作用域只作用与当前函数块（或代码块）中，对函数块（或代码块）之外的重名变量，没有任何影响。在函数块（或代码块）中，局部变量可用通过global关键字声明变量来改变在函数块（或代码块）之外对该变量做的操作。在函数里面定义的global全局变量，最好不要在函数里面改全局变量。全局变量作用域为整个程序包括函数中没有重名变量的代码块，如果有重名的，在函数中定义的局部变量起作用，全局变量不起作用。变量为整数或...

python3学习之特殊变量【代码】

#特殊变量 #__doc__ 获取模块注释 #__file__ 当前执行文件的路径 #__cached__ 对应pyc文件的位置 #__name__ 执行当前文件的时候，等于__main__;否则不等于；一般在主文件里写 #__package__ 模块所在package原文：http://lejie.blog.51cto.com/3080804/1925069

Python使用进程间共享变量来控制两个进程（监听键盘和相机录制）的交互【代码】

我有个简单的应用需求：1. 该应用随时会监听键盘的输入；2. 当输入指定键时会控制相机录制的启动和关闭。监听键盘是一个事件循环，相机录制也是一个循环录制的过程。我试着用 Python 启动两个进程，并用两个进程共享变量的更新来控制两个进程的交互。监听键盘输入首先我找到python 监听键盘输入的方案可以满足我监听键盘的需求。 1import sys, select, tty, termios2 3 old_attr = termios.tcgetattr(sys.stdin) 4tty.setcbreak(sy...

在Python的Django框架中调用方法和处理无效变量【代码】

方法调用行为方法调用比其他类型的查找略为复杂一点。以下是一些注意事项：在方法查找过程中，如果某方法抛出一个异常，除非该异常有一个 silent_variable_failure 属性并且值为 True ，否则的话它将被传播。如果异常被传播，模板里的指定变量会被置为空字符串，比如: >>> t = Template("My name is {{ person.first_name }}.") >>> class PersonClass3: ... def first_name(self): ... raise AssertionError, "foo" >>...

python实现类的静态变量用法实例【代码】

本文实例讲述了python类的静态变量用法。分享给大家供大家参考。具体分析如下：这里使用静态变量目的是在类中实现一个静态的队列，这里用数组实现，任何时候插入到队列中的数据不会和类的实例有直接关系。 __author__ = ‘Administrator‘ class CaptchaImage:def queue(self,arr=list()):return arrdef InsertCode(self,code):self.queue().append(code) if __name__==‘__main__‘:c = CaptchaImage()c.InsertCode(1)b=CaptchaIm...

首页 / PYTHON / python-熊猫：从具有不同变量顺序的多个文件中读取

python-熊猫：从具有不同变量顺序的多个文件中读取

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-熊猫：从具有不同变量顺序的多个文件中读取】教程文章相关的互联网学习教程文章

python的变量【代码】

Python的安装以及环境变量的修改【图】

Python中使用动态变量名的方法

第六章 python语法入门之变量【代码】

python 变量作用域

python跨模块使用全局变量的实现方法【代码】

python中局部变量的定义【代码】

Python 极简教程（四）变量与常量【代码】【图】

python main函数中变量默认为global variable

python中数据类型的转换and变量缓存机制【代码】

python基础局部变量、全局变量

python3学习之特殊变量【代码】

Python使用进程间共享变量来控制两个进程（监听键盘和相机录制）的交互【代码】

在Python的Django框架中调用方法和处理无效变量【代码】

python实现类的静态变量用法实例【代码】

PYTHON - 相关标签

变量 - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程