首页 / PYTHON / python – PyPDF2：在内存中连接pdfs

python – PyPDF2：在内存中连接pdfs

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – PyPDF2：在内存中连接pdfs，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1958字，纯文字阅读大概需要3分钟。

内容图文

我希望在纯python中将一堆小pdf有效地连接在内存中.具体来说,通常的情况是500个单页pdf,每个都有大约400 kB的大小,要合并为一个.假设pdf在内存中可用作迭代,比如列表：

my_pdfs = [pdf1_fileobj, pdf2_fileobj, ..., pdfn_fileobj]  # type is BytesIO

每个pdf_fileobj的类型为BytesIO.然后,基本内存使用量约为200 MB(500 pdf,每个400kB).

理想情况下,我希望以下代码连接使用总共不超过400-500 MB的内存(包括my_pdfs).但是,情况似乎并非如此,最后一行的调试语句表明最大内存过去几乎是700 MB.此外,使用Mac os x资源监视器,分配的内存在到达最后一行时指示为600 MB.

运行gc.collect()会将其减少到350 MB(几乎太好了？).为什么我必须手动运行垃圾收集以摆脱合并垃圾,在这种情况下？我已经看到这个(可能)导致内存在稍微不同的情况下建立,我现在将跳过.

import PyPDF2
import io
import resources  # For debugging

def merge_pdfs(iterable):
    ''' Merge pdfs in memory '''
    merger = PyPDF2.PdfFileMerger()
    for pdf_fileobj in iterable:
        merger.append(pdf_fileobj)

    myio = io.BytesIO()
    merger.write(myio)
    merger.close()

    myio.seek(0)
    return myio

my_concatenated_pdf = merge_pdfs(my_pdfs)

# Print the maximum memory usage
print('Memory usage: %s (kB)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss)

问题摘要

>为什么上面的代码需要几乎700 MB的内存来合并200 MB的pdfs？不应该400 MB的开销就足够了吗？我该如何优化它？
>当有问题的变量已经超出范围时,为什么我需要手动运行垃圾收集以摆脱PyPDF2合并垃圾？
>这种一般方法怎么样？ BytesIO适合使用是这种情况吗？ merger.write(myio)看起来确实有点慢,因为所有都发生在ram中.

谢谢！

解决方法:

问：为什么上面的代码需要几乎700 MB的内存来合并200 MB的pdfs？不应该400 MB的开销就足够了吗？我该如何优化它？

答：因为.append创建了一个新的流对象,然后你使用了merger.write(myio),它创建了另一个流对象,你已经在内存中有200 MB的pdf文件,所以3 * 200 MB.

问：当有问题的变量已经超出范围时,为什么我需要手动运行垃圾收集以摆脱PyPDF2合并垃圾？

答：这是PyPDF2中已知的issue.

问：这种一般方法怎么样？ BytesIO适合使用是这种情况吗？

答：考虑到内存问题,您可能想尝试不同的方法.也许可以逐个合并,暂时将文件保存到磁盘,然后从内存中清除已经合并的文件.

内容总结

以上是互联网集市为您收集整理的python – PyPDF2：在内存中连接pdfs全部内容，希望文章能够帮你解决python – PyPDF2：在内存中连接pdfs所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/963659.html

来源：【匿名】

【上一篇】python – 在列表中存储文件使用10x内存作为文件大小【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – PyPDF2：在内存中连接pdfs】教程文章相关的互联网学习教程文章

深入学习python内存管理【代码】【图】

作者：Vamei 出处：http://www.cnblogs.com/vamei 欢迎转载，也请保留这段声明。谢谢！语言的内存管理是语言设计的一个重要方面。它是决定语言性能的重要因素。无论是C语言的手工管理，还是Java的垃圾回收，都成为语言最重要的特征。这里以Python语言为例子，说明一门动态类型的、面向对象的语言的内存管理方式。对象的内存使用赋值语句是语言最常见的功能了。但即使是最简单的赋值语句，也可以很有内涵。Python的赋值语句就很值...

（一）Python入门-3序列：01列表-特点-内存分析【图】

一：序列介绍　　序列是一种数据存储方式，用来存储一系列的数据。在内存中，序列就是一块用来存放多个值的连续的内存空间。比如一个整数序列[10,20,30,40]，可以这样示意表示：　　由于 Python3 中一切皆对象，在内存中实际是按照如下方式存储的： a = [10,20,30,40]　　从图示中，可以看出序列中存储的是整数对象的地址，而不是整数对象的值。python 中常用的序列结构有：字符串、列表、元组、字典、集合　　上一章学习的字符串...

Python 获得对象内存占用内存大小 sys.getsizeof【代码】

from sys import getsizeofclass A(object): passclass B: passfor x in (None, 1, 1L, 1.2, ‘c‘, [], (), {}, set(), B, B(), A, A()):print"{0:20s}\t{1:d}".format(type(x).__name__, sys.getsizeof(x))NoneType 16 int 24 long 28 float 24 str 34 list 64 tuple 48 dict ...

零基础学python-3.5 内存管理【代码】

* 变量无需事先声明*?变量无需指定类型*?程序猿不用关系内存管理*?变量名会被回收*?del能够直接释放资源1.python使用的是引用调用，而不是值调用，他使用的回收算法是引用计数算法，我以下举两个样例x = 4 y = 4 aList = [1, 2, 3] bList = [1, 2, 3] print(x is y) print(x == y) print(aList is bList) print(aList == bList) a = 3.2 b = 3.2 print(a is b) print(a == b)输出结果：True True False True True True从输出结果分...

Python基础知识（五）—列表内存图【代码】【图】

# list01 是变量，存储列表对象的地址． #列表引用 list01 = ["张无忌","赵敏","周芷若"] # list02　得到的是列表对象地址 list02 = list01 # 修改的是列表第一个元素存储的对象地址 list01[0] = "老张"print(list02[0])# ?"老张"list01 = ["张无忌","赵敏","周芷若"] list02 = list01 # 修改的是变量存储的对象地址 list01 = "老张"print(list02[0])# ?"张无忌"list01 = ["张无忌","赵敏","周芷若"] # 通过切片复制新列表(拷贝了列...

Python-练习-统计获取脚本运行时长和内存占用【代码】

---练习用---作用：统计获取脚本运行时长和内存占用需要安装psuti模块：pip install psutil 1#!python 2 3import time4import psutil5import os6 7def show_info(start):8 pid = os.getpid()9 p = psutil.Process(pid) 10 info = p.memory_full_info() 11 memory = info.uss/1024 12return memory 1314def func(): 1516print(‘function‘) 171819if__name__ == "__main__": 2021 first = time.time() 22 ...

（一）Python入门-5函数：03函数也是对象-内存分析【代码】【图】

函数也是对象，内存底层分析：　　Python中，“一切都是对象”。实际上，执行def 定义函数后，系统就创建了相应的函数对象。我们执行如下程序，然后进行解释： 1#函数也是对象 2def print_star(n):3print(‘*‘*n)4 5 print_star(3)6 c = print_star7 c(3)8 9print(id(print_star)) 10print(id(c)) 11print(type(c))　　上面代码执行 def 时，系统中会创建函数对象，并通过print_star 这个变量进行引用：　　我们执行“c=print_st...

Python的内存机制

python的内存管理机制（转载）原文链接：作者：幽灵鬼手链接：https://www.jianshu.com/p/fb1d4dc8e367来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。先从较浅的层面来说，Python的内存管理机制可以从三个方面来讲（1）垃圾回收（2）引用计数（3）内存池机制一、垃圾回收：python不像C++，Java等语言一样，他们可以不用事先声明变量类型而直接对变量进行赋值。对Python语言来讲，对象的类型和内...

Python StringIO实现内存缓冲区中读写数据

StringIO的行为与file对象非常像，但它不是磁盘上文件，而是一个内存里的“文件”，我们可以像操作磁盘文件那样来操作StringIO。这篇文章主要介绍了Python StringIO模块，此模块主要用于在内存缓冲区中读写数据。模块中只有一个StringIO类，所以它的可用方法都在类中，此类中的大部分函数都与对文件的操作方法类似。----------------------------------s=StringIO.StringIO([buf])此实例类似于open方法，不同的是它并不会在硬盘中生...

python内存管理机制

python内存管理机制:引用计数垃圾回收（引用计数，标记清除，分带回收）内存池1. 引用计数当一个python对象被引用时其引用计数增加 1 ; 当其不再被变量引用时引用计数减 1 ; 当对象引用计数等于 0 时, 对象被删除(引用计数是一种非常高效的内存管理机制)增加引用个数的情况：1.对象被创建p = Person()，增加1；2.对象被引用p1 = p，增加1；3.对象被当作参数传入函数func(object)，增加2，原因是函数中有两个属性在引用该对象；4....

Python使用稀疏矩阵节省内存实例

推荐系统中经常需要处理类似user_id, item_id, rating这样的数据，其实就是数学里面的稀疏矩阵，scipy中提供了sparse模块来解决这个问题，但scipy.sparse有很多问题不太合用：1、不能很好的同时支持data[i, ...]、data[..., j]、data[i, j]快速切片； 2、由于数据保存在内存中，不能很好的支持海量数据处理。要支持data[i, ...]、data[..., j]的快速切片，需要i或者j的数据集中存储；同时，为了保存海量的数据，也需要把数据的一部...

Python在计算内存时应该注意的问题？【代码】【图】

我之前的一篇文章，带大家揭晓了 Python 在给内置对象分配内存时的 5 个奇怪而有趣的小秘密。文中使用了sys.getsizeof()来计算内存，但是用这个方法计算时，可能会出现意料不到的问题。文档中关于这个方法的介绍有两层意思：该方法用于获取一个对象的字节大小（bytes）它只计算直接占用的内存，而不计算对象内所引用对象的内存也就是说，getsizeof() 并不是计算实际对象的字节大小，而是计算“占位对象”的大小。如果你想计算所有属...

说说 Python 的内存视图【代码】

Python 的内存视图（memoryview）是一个内置类，它能取出数组中的某一部分作为切片进行处理。切片的任何变化都会影响到数组。NumPy 的作者 Travis Oliphant 是这样看待内存视图的：内存视图其实是泛化和去数学化的 NumPy 数组。它让我们可以在不需要复制内容的前提下，实现在数据结构之间共享内存。其中数据结构可以是任何形式，比如 PIL 图片、SQLite 数据库和 NumPy 数组等等。对于处理大型数据集合的场景，这个功能非常重要。P...

【Python3】内存释放机制【图】

x、y、‘函数名’相当于门牌号（内存地址）当x、y都停止指向123时，123对应的内存被清空释放回收匿名函数没有门牌号，对应内存将被即刻回收原文：http://www.cnblogs.com/shengxinjack/p/7746492.html

Python：统计Apache进程占用的物理内存比【图】

前面介绍过怎么统计系统剩余内存：http://msiyuetian.blog.51cto.com/8637744/1772888下面这个主要是统计Apache进程占用的物理内存我们可以通过以下命令查看Apache有哪些进程及其PID1）ps aux |grep httpd650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108020721967.jpg" title="1.png" />2）pidof httpd650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108020722287.jpg" title="4.p...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – PyPDF2：在内存中连接pdfs

python – PyPDF2：在内存中连接pdfs

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – PyPDF2：在内存中连接pdfs】教程文章相关的互联网学习教程文章

深入学习python内存管理【代码】【图】

（一）Python入门-3序列：01列表-特点-内存分析【图】

Python 获得对象内存占用内存大小 sys.getsizeof【代码】

零基础学python-3.5 内存管理【代码】

Python基础知识（五）—列表内存图【代码】【图】

Python-练习-统计获取脚本运行时长和内存占用【代码】

（一）Python入门-5函数：03函数也是对象-内存分析【代码】【图】

Python的内存机制

Python StringIO实现内存缓冲区中读写数据

python内存管理机制

Python使用稀疏矩阵节省内存实例

Python在计算内存时应该注意的问题？【代码】【图】

说说 Python 的内存视图【代码】

【Python3】内存释放机制【图】

Python：统计Apache进程占用的物理内存比【图】

PYTHON - 相关标签

内存 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程