首页 / PYTHON / Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？

Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4697字，纯文字阅读大概需要7分钟。

内容图文

我对Python相当陌生,我试图将一个文本文件(其中条目由两行组成)拆分为max. 400个对象.

我正在使用的数据是FASTA格式(带有标头的纯文本,用于生物信息学)的数千个序列,其中的条目如下所示：

>HORVU6Hr1G000325.5

PIPPPASHFHPHHQNPSAATQPLCAAMAPAAKKPPLKSSSSHNSAAGDAA

>HORVU6Hr1G000326.1

MVKFTAEELRGIMDKKNNIRNMSVIAHVD

…

在Biopython中,有一个解析器SeqIO.parse,它允许将它们作为由ID和字符串组成的对象数组进行访问,我需要在代码的后续部分中使用它们,并且由于我需要提高内存效率,因此为了避免不必要的次数读取/解析源文件.

在Biopython手册中,有一种推荐的方式可以通过生成器来实现,我正在使用：https://biopython.org/wiki/Split_large_file

但是,我使用的是Python 3.7,而其中的代码在Python 2.x中,因此肯定需要进行一些更改.我已经改变了

entry = iterator.next()

进入

entry = next(iterator)

但我不确定这是否就是我需要改变的.

这是代码：

def batch_iterator(iterator, batch_size=400):
    """Returns lists of length batch_size."""
    entry = True  # Make sure we loop once
    while entry:
        batch = []
        while len(batch) < batch_size:
            try:
                entry = next(iterator)
            except StopIteration:
                entry = None

            if entry is None:
                # End of file
                break
            batch.append(entry)
        if batch:
            yield batch

while True:
    bsequence = input("Please enter the full path to your FASTA file(e.g. c:\\folder1\\folder2\\protein.fasta):\n")
    try:
        fastafile = open(bsequence)
        break
    except:
        print("File not found!\n")            


record_iter = SeqIO.parse(fastafile,"fasta")
num = 0
for line in fastafile:
    if line.startswith(">"):
        num += 1

print("num=%i" % (num,))
if num > 400:
    print("The specified file contains %i sequences. It's recommended to split the FASTA file into batches of max. 400 sequences.\n" % (num,))
    while True:
        decision = input("Do you wish to create batch files? (Original file will not be overwritten)\n(Y/N):")
        if (decision == 'Y' or 'y'):
            for i, batch in enumerate(batch_iterator(record_iter, 400), 1):
                filename = "group_%i.fasta" % (i + 1)
                with open(filename, "w") as handle:
                    count = SeqIO.write(batch, handle, "fasta")
                print("Wrote %i records to %s" % (count, filename))
            break
        elif (decision == 'N' or 'n'):
            break
        else:
            print('Invalid input\n')

...next part of the code

当我运行此命令时,在Y / N提示符后,即使我键入Y,该程序也将跳过代码的下一部分而不创建任何新文件.调试器显示以下内容：

Do you wish to create batch files? (Original file will not be overwritten)
(Y/N):Y
Traceback (most recent call last):
  File "\Biopython\mainscript.py", line 32, in batch_iterator
    entry = next(iterator)
StopIteration

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Program Files (x86)\Thonny\lib\site-packages\thonny\backend.py", line 1569, in _trace
    return self._trace_and_catch(frame, event, arg)

  File "C:\Program Files (x86)\Thonny\lib\site-packages\thonny\backend.py", line 1611, in _trace_and_catch
    frame.f_back, event, marker_function_args, node

  File "C:\Program Files (x86)\Thonny\lib\site-packages\thonny\backend.py", line 1656, in _handle_progress_event
    self._save_current_state(frame, event, args, node)

  File "C:\Program Files (x86)\Thonny\lib\site-packages\thonny\backend.py", line 1738, in _save_current_state
    exception_info = self._export_exception_info()

  File "C:\Program Files (x86)\Thonny\lib\site-packages\thonny\backend.py", line 1371, in _export_exception_info
    "affected_frame_ids": exc[1]._affected_frame_ids_,

AttributeError: 'StopIteration' object has no attribute '_affected_frame_ids_'

我忽略的Python 2.x和3.x之间有什么区别吗？问题在其他地方吗？这种方法完全错误吗？提前致谢！

解决方法:

由于您省略了一部分代码,因此我无法检查整个代码,但在这里我会看到两处错误的内容：

num = 0
for line in fastafile:
    if line.startswith(">"):
        num += 1

这些行耗尽了您的文件对象fastafile.完全删除这些行(并记住要修复下面的缩进,如果num> 400：请取消,等等).

if (decision == 'Y' or 'y'):

这并没有按照您的想法做.将其更改为if决策(‘Y’,’y’)：或if Decision.lower()==’y’:.您在下面的if(decision ==’N’或’n’)：行中重复此模式,因此也进行更改.

进行更改,然后尝试再次运行代码.

说明

第一个问题：在Python中,文件对象(即open(‘filename.txt’,’r’)返回的内容)是一个生成器,这意味着它只能被迭代一次.乍一看这似乎有些怪异,但这就是使用生成器的全部意义所在.生成器作为文件对象允许文件逐行循环,而不必一次加载整个文件内容-生成器仅跟踪下一行.

缺点是它们不能向后移动,因此当您在fastafile块中编写for行时,将耗尽生成器.当您稍后尝试调用batch_iterator(record_iter,400)时,record_iter中的生成器已经用尽,这就是为什么您以后会遇到错误的原因-如果没有任何要解析的内容,batch_iterator无法解析fasta序列.

第二个问题：对于带有布尔运算符的条件,例如if(decision ==’Y’或’y’):, Python将始终分别评估双方.因此,Python实际上会查看(bool(decision ==’Y’)还是bool(‘y’))：.

由于bool(‘y’)的计算结果为True(就像任何非空字符串一样),因此您的表达式变为if(bool(decision ==’Y’)或True)：,这显然总是对的.

使用我建议的一种方法,以便将变量与条件中的多个值进行比较.

内容总结

以上是互联网集市为您收集整理的Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？全部内容，希望文章能够帮你解决Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/650047.html

来源：【匿名】

【上一篇】python_面向对象——动态创建类【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？】教程文章相关的互联网学习教程文章

20200221_python虚拟环境在Windows下安装配置_virtualenv不是内部或外部命令也不是可运行的程序或批处理文件【图】

1. 使用管理员启动命令行;2. 安装虚拟环境a) .\pip install virtualenv -i https://pypi.douban.com/simple/b) .\pip install virtualenvwrapper-win -i https://pypi.douban.com/simple/3. 解决错误a) 添加ignore4. 输入.\workon 出现这个, 表示安装成功: 5. 配置虚拟环境路径, 如果不配置WORKON_HOME就会创建到C:\Users\PCname\Envs\下a) WORKON_HOMEb) D:\ENVSWORKON_HOME / D:\PythonProject\myP...

【Python爬虫错误】'scrapyd-deploy' 不是内部或外部命令，也不是可运行的程序或批处理文件【代码】【图】

【问题描述】在编写好 python 爬虫程序，准备部署到云服务器上时，遇到一个问题。 scrapyd-deploy 1.0 -p caigou 执行上述部署的命令时，提示： scrapyd-deploy 不是内部或外部命令，也不是可运行的程序或批处理文件。【解决办法】找到 Python 的安装路径，进入 Scripts 文件夹。创建两个文件，scrapy.bat 和 scrapyd-deploy.bat （新建 txt 文本文档，然后更改后缀名为 .bat）如图：3.编辑 scrapy.bat （右键 —> 编辑），添加...

python问题：‘python’不是内部或外部命令，也不是可运行的程序或批处理文件。【图】

原因：未设置环境变量解决：系统--环境变量中 path添加; G:\tool\prodesign\Anaconda3\Scripts; G:\tool\prodesign\Anaconda3; G:\tool\prodesign\Anaconda3\Library\bin 添加完成后系统重启检查：运行cmd,输入pathon

'java' 'adb 'python'不是内部或外部命令，也不是可运行的程序或批处理文件

看了一篇高赞文章写得乱七八糟的。类似的错误或者提示都是因为可执行程序的目录没有被写入环境变量中。将可执行程序的目录写入环境变量即可解决此类问题。举几个列子： C:\Users\Administrator\AppData\Local\Programs\Python\Python36; C:\Users\Administrator\AppData\Local\Android\Sdk\platform-tools; C:\Program Files\Java\jdk1.8.0_191\bin

Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？【代码】

我对Python相当陌生,我试图将一个文本文件(其中条目由两行组成)拆分为max. 400个对象. 我正在使用的数据是FASTA格式(带有标头的纯文本,用于生物信息学)的数千个序列,其中的条目如下所示：>HORVU6Hr1G000325.5 PIPPPASHFHPHHQNPSAATQPLCAAMAPAAKKPPLKSSSSHNSAAGDAA >HORVU6Hr1G000326.1 MVKFTAEELRGIMDKKNNIRNMSVIAHVD …在Biopython中,有一个解析器SeqIO.parse,它允许将它们作为由ID和字符串组成的对象数组进行访问,我需要在代码的...

python – ‘From / import’不被识别为内部或外部命令,可操作程序或批处理文件

我从scikit-learn导入机器学习算法时遇到问题. 我安装了它,但每当我键入“例如来自sklearn.naive_bayes import GaussianNB”时,它表示“’from’不被识别为内部或外部命令,可操作程序或批处理文件. 我在Windows 10上使用Anaconda.是兼容性问题吗？我错过了什么吗？ Idk我还是Python的新手,所以我感到迷茫.谢谢解决方法:这需要在Python REPL中运行,而不是在命令行中运行.在键入Python语句之前一定要先启动一个.

通过批处理文件将多个参数传递给python脚本【代码】

我的批处理文件中有以下代码@ECHO OFF SET /P NAME=Enter name: SET /P GENDER = Enter age: SET /P AGE = Enter gender: python test.py %NAME% %GENDER% %AGE% PAUSE这是test.py中的代码import sysprint len(sys.argv)for arg in sys.argv:print arg这是输出Enter name:Dodo Enter age:1 Enter DB gender:M 2 test.py Dodo Press any key to continue . . .我正在使用python2.5.我如何通过年龄和性别？我是python和批处理编程的新...

python – ‘{‘不被识别为内部或外部命令,可操作程序或批处理文件【代码】

在Windows上运行,以下Python程序产生上述输出(输出变量的内容)import commandscmd = "dir" (output) = commands.getoutput(cmd) print output非常有趣和令人沮丧.有人可以指点我的解释吗？解决方法:见documentation：cmd is actually run as { cmd ; } 2>&1这是{来自哪里.您应该使用子流程.import subprocess p = subprocess.Popen(['dir'],stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True) stdout,stderr = p.commun...

将批处理文件输出管道输出到Python脚本【代码】

我正在尝试编写一个运行批处理文件的python脚本(在Windows中),并将该批处理文件的命令行输出作为输入.批处理文件运行我无权访问的进程,并根据这些进程是否成功提供输出.我想从批处理文件中获取这些消息并在python脚本中使用它们.任何人对如何做到这一点都有任何想法？解决方法: import subprocessoutput= subprocess.Popen(("c:\\bin\\batch.bat", "an_argument", "another_argument"),stdout=subprocess.PIPE).stdoutfor line in ...

使用Python或F#中的参数运行批处理文件【代码】

我搜索了网站,但我没有看到任何与我想要的相匹配的东西.我创建了一个使用我创建的Web服务的独立应用程序.要运行客户端我使用：C:/scriptsdirecotry> "run-client.bat" param1 param2 param3 param4我将如何用Python或F#编写代码.看起来它应该很简单,但我没有在网上看到任何与我正在寻找的相匹配的东西.解决方法:Python是类似的.import os os.system("run-client.bat param1 param2")如果需要异步行为或重定向标准流.from subproces...

在批处理文件和cmd行中运行时,Python脚本的行为会有所不同【代码】

我有一个Python脚本需要使用批处理文件运行,但我一直在使用cmd来测试它.通过cmd运行时,它工作正常.但是,在批处理文件中运行时,脚本的行为似乎有所不同.我已经隔离了似乎是问题的代码部分：CRFOLDER = "some path to all my files"isReady = False os.startfile(os.path.join(CRFOLDER,"CLogger.exe"))while not isReady:try:open(os.path.join(CRFOLDER,"CRPYLog.py"))isReady = Trueexcept:print "Not ready yet"time.sleep(0.25)...

批处理文件重命名 – 从列表中插入文本(使用Python或Java)【代码】

我正在完成名片制作流程(excel> xml> indesign>单页pdfs),我想在文件名中插入员工的姓名. 我现在拥有的：BusinessCard_01_Blue.pdf BusinessCard_02_Blue.pdf BusinessCard_03_Blue.pdf (they are gonna go up to the hundreds)我需要什么(我可以轻松地使用正则表达式操作名单)：BusinessCard_01_CarlosJorgeSantos_Blue.pdf BusinessCard_02_TaniaMartins_Blue.pdf BusinessCard_03_MarciaLima_Blue.pdf我是一名Java和Python幼儿....

首页 / PYTHON / Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？

Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？】教程文章相关的互联网学习教程文章

20200221_python虚拟环境在Windows下安装配置_virtualenv不是内部或外部命令也不是可运行的程序或批处理文件【图】

【Python爬虫错误】'scrapyd-deploy' 不是内部或外部命令，也不是可运行的程序或批处理文件【代码】【图】

python问题：‘python’不是内部或外部命令，也不是可运行的程序或批处理文件。【图】

'java' 'adb 'python'不是内部或外部命令，也不是可运行的程序或批处理文件

Python 3.x-如何有效地将对象数组拆分为较小的批处理文件？【代码】

python – ‘From / import’不被识别为内部或外部命令,可操作程序或批处理文件

通过批处理文件将多个参数传递给python脚本【代码】

python – ‘{‘不被识别为内部或外部命令,可操作程序或批处理文件【代码】

将批处理文件输出管道输出到Python脚本【代码】

使用Python或F#中的参数运行批处理文件【代码】

在批处理文件和cmd行中运行时,Python脚本的行为会有所不同【代码】

批处理文件重命名 – 从列表中插入文本(使用Python或Java)【代码】

PYTHON - 相关标签

批处理文件 - 相关标签

数组 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程