首页 / PYTHON / Python多进程分块读取超大文件的方法

Python多进程分块读取超大文件的方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python多进程分块读取超大文件的方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2581字，纯文字阅读大概需要4分钟。

内容图文

本文实例讲述了Python多进程分块读取超大文件的方法。分享给大家供大家参考，具体如下：

读取超大的文本文件，使用多进程分块读取，将每一块单独输出成文件

# -*- coding: GBK -*-
import urlparse
import datetime
import os
from multiprocessing import Process,Queue,Array,RLock
"""
多进程分块读取文件
"""
WORKERS = 4
BLOCKSIZE = 100000000
FILE_SIZE = 0
def getFilesize(file):
  """
    获取要读取文件的大小
  """
  global FILE_SIZE
  fstream = open(file,'r')
  fstream.seek(0,os.SEEK_END)
  FILE_SIZE = fstream.tell()
  fstream.close()
def process_found(pid,array,file,rlock):
  global FILE_SIZE
  global JOB
  global PREFIX
  """
    进程处理
    Args:
      pid:进程编号
      array:进程间共享队列，用于标记各进程所读的文件块结束位置
      file:所读文件名称
    各个进程先从array中获取当前最大的值为起始位置startpossition
    结束的位置endpossition (startpossition+BLOCKSIZE) if (startpossition+BLOCKSIZE)<FILE_SIZE else FILE_SIZE
    if startpossition==FILE_SIZE则进程结束
    if startpossition==0则从0开始读取
    if startpossition!=0为防止行被block截断的情况，先读一行不处理，从下一行开始正式处理
    if 当前位置 <=endpossition 就readline
    否则越过边界，就从新查找array中的最大值
  """
  fstream = open(file,'r')
  while True:
    rlock.acquire()
    print 'pid%s'%pid,','.join([str(v) for v in array])
    startpossition = max(array)      
    endpossition = array[pid] = (startpossition+BLOCKSIZE) if (startpossition+BLOCKSIZE)<FILE_SIZE else FILE_SIZE
    rlock.release()
    if startpossition == FILE_SIZE:#end of the file
      print 'pid%s end'%(pid)
      break
    elif startpossition !=0:
      fstream.seek(startpossition)
      fstream.readline()
    pos = ss = fstream.tell()
    ostream = open('/data/download/tmp_pid'+str(pid)+'_jobs'+str(endpossition),'w')
    while pos<endpossition:
      #处理line
      line = fstream.readline()
      ostream.write(line)
      pos = fstream.tell()
    print 'pid:%s,startposition:%s,endposition:%s,pos:%s'%(pid,ss,pos,pos)
    ostream.flush()
    ostream.close()
    ee = fstream.tell()
  fstream.close()
def main():
  global FILE_SIZE
  print datetime.datetime.now().strftime("%Y/%d/%m %H:%M:%S") 
  file = "/data/pds/download/scmcc_log/tmp_format_2011004.log"
  getFilesize(file)
  print FILE_SIZE
  rlock = RLock()
  array = Array('l',WORKERS,lock=rlock)
  threads=[]
  for i in range(WORKERS):
    p=Process(target=process_found, args=[i,array,file,rlock])
    threads.append(p)
  for i in range(WORKERS):
    threads[i].start()
  for i in range(WORKERS):
    threads[i].join()
  print datetime.datetime.now().strftime("%Y/%d/%m %H:%M:%S") 
if __name__ == '__main__':
  main()

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

内容总结

以上是互联网集市为您收集整理的Python多进程分块读取超大文件的方法全部内容，希望文章能够帮你解决Python多进程分块读取超大文件的方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/434926.html

来源：【匿名】

【上一篇】Python中操作符重载用法分析【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python多进程分块读取超大文件的方法】教程文章相关的互联网学习教程文章

python_并发编程——多进程的第二种启动方式【代码】【图】

1.多进程的第二种启动方式import os from multiprocessing import Process # 创建一个自定义类，继承Process类class MyProcess(Process):# 必须实现一个run方法，run方法中是子进程中执行的代码def run(self):print(‘子进程：‘,os.getpid())if__name__ == ‘__main__‘:print(‘主进程‘,os.getpid())p1 = MyProcess()p1.start()p2 = MyProcess()p2.start()结果： 2.进程号和进程名import os from multiprocessing import Proc...

Python一篇学会多进程【代码】【图】

阅读目录1. Process2. Lock3. Semaphore4. Event5. Queue6. Pipe7. Pool序. multiprocessing python 中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing，只需要定义一个函数，Python会完成其他所有事情。借助这个包，可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同...

PYTHON自动化Day10-经典类和新式类的区别、重写父类方法、多线程、多进程、数据驱动框架的编写【代码】

一.重写父类方法、经典类和新式类在python2中的区别：#两种情况： #1.父类的方法子类中完全不需要，子类重新写 #2.父类有这个方法，但功能不够完善，子类想要在父类这个方法的基础上再添加一些新功能class ZLL():def smile(self):print(‘哈哈哈‘)class Xz(ZLL): #继承这个父类def smile(self): #重写父类的方法　　　　　#如果想要在子类中执行父类的smile方法# ZLL().smile() #调用父类，注意ZLL后面有（），因为调用的是实...

Python中的多进程【代码】

由于cPython的gill，多线程未必是CPU密集型程序的好的选择。多线程可以完全独立的进程环境中运行程序，可以充分利用多处理器。但是进程本身的隔离带来的数据不共享也是一种问题，线程比进程轻量级。 1、Multiprocessing import multiprocessing import datetime def calc(i): sum = 0 for _ in range(10000000): sum += 1 print(i,sum) if __name__ == ‘__main__‘: start = datetime.datetime.now() ...

也说性能测试，顺便说python的多进程嵌套多线程【代码】

最近需要一个web系统进行接口性能测试，这里顺便说一下性能测试的步骤吧，大概如下　　一、分析接口频率　　根据系统的复杂程度，接口的数量有多有少，应该优先对那些频率高，数据库操作频繁的接口进行性能测试，所以先和开发根据业务情况，找到频率最高的几个接口。　　二、找到合适的测试工具　　性能测试工具简直数不胜数，最著名莫过于loadrunner，因为它支持windows，呵呵呵，这也是我刚毕业时用的工具（当然是盗版了。。。）...

python并发编程之多进程【代码】

一.multiprocessing模块　　multiprocessing模块用来开启子进程，并在子进程中执行我们定制的任务（比如函数），该模块与多线程模块threading的编程接口类似。　 multiprocessing模块的功能众多：支持子进程、通信和共享数据、执行不同形式的同步，提供了Process、Queue、Pipe、Lock等组件。　　注意：与线程不同，进程没有任何共享的状态，进程修改的数据，仅限于进程内。二.Process类　由该类实例化得到的对象，表示一个子进程...

cpython多进程【代码】

四同步\异步and阻塞\非阻塞（重点）同步：#所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不会返回。按照这个定义，其实绝大多数函数都是同步调用。但是一般而言，我们在说同步、异步的时候，特指那些需要其他部件协作或者需要一定时间完成的任务。 #举例： #1. multiprocessing.Pool下的apply #发起同步调用后，就在原地等着任务结束，根本不考虑任务是在计算还是在io阻塞，总之就是一股脑地等任务结束 #2. ...

python 多进程【代码】

multiprocessing 模块介绍python中的多线程无法利用多核优势,如果想要充分的使用多核cpu的资源,os.cpu_count可以查看逻辑cpu数,在python中大部分情况需要使用多进程,python提供了multiprocessingmuliprocessing模块用来开启子进程,并在子进程中执行我们制定的任务(比如函数),这个模块与多线程模块threading编程接口类似multiprocessing模块的功能众多,支持子进程,通信和共享数据,执行不同形式的同步,提供了Process,Queue,Pipe,Lock...

python 并发编程多进程 Process对象的其他属性方法 join 方法【代码】

一 Process对象的join方法在主进程运行过程中如果想并发地执行其他的任务，我们可以开启子进程，此时主进程的任务与子进程的任务分两种情况情况一：在主进程的任务与子进程的任务彼此独立的情况下，主进程的任务先执行完毕后，主进程还需要等待子进程执行完毕，然后统一回收资源。这种是没有join方法情况二：如果主进程的任务在执行到某一个阶段时，需要等待子进程执行完毕后才能继续执行，就需要有一种机制能够让主进程检测子进...

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务，为了探测异步的性能，全部都只是做了网络IO请求，就是说aiohttp把网页get完就程序就done了。结果发现前者的效率比后者还要高。我询问了另外一位博主，(提供代码的博主没回我信息)，他说使用concurrent.futures的话因为...

python 多进程【代码】

#方法一直接调用 import time import random from multiprocessing import Process def run(name):index = 0for i in range(3):print('%s runing' %name)time.sleep(random.randrange(1,5))print('%s running end' %name)index +1l = [] if __name__ == "__main__":for i in range(20):p = Process(target=run,args=(i,))p.start()l.append(p)for proc in l:proc.join()print("执行完毕")原文：https://www.cnblogs.com/asia9847/...

python多进程，并获取每个进程的返回值【代码】

pool = multiprocessing.Pool(processes=10) row = [...] for row in rows:task_id = row[1]img_id = row[0]pool.apply_async(check_picture_contain_human_or_dog, (task_id, img_id)) pool.close() pool.join() 原文：https://www.cnblogs.com/tanghuang/p/9786052.html

Python多进程机制实例详解【代码】

本文实例讲述了Python多进程机制。分享给大家供大家参考。具体如下：在以前只是接触过PYTHON的多线程机制，今天搜了一下多进程，相关文章好像不是特别多。看了几篇，小试了一把。程序如下，主要内容就是通过PRODUCER读一个本地文件，一行一行的放到队列中去。然后会有相应的WORKER从队列中取出这些行。 import multiprocessing import os import sys import Queue import time def writeQ(q,obj):q.put(obj,True,None)print "put s...

Python多进程并发(multiprocessing)

A manager returned by Manager() will support types list, dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Queue, Value and Array. For example,from multiprocessing import Process, Managerdef f(d, l): d[1] = ‘1‘ d[‘2‘] = 2 d[0.25] = None l.reverse()if __name__ == ‘__main__‘: manager = Manager() d = manager.dict() l = manager.list(range(10)) p...

Python 多进程编程之multiprocessing--Process【代码】

Python 多进程编程之multiprocessing1,Process跨平台的进程创建模块(multiprocessing), 支持跨平台:windowx/linux创建和启动创建格式:p=Process(target=函数名)----def __init__(self, group=None, target=None, name=None, args=(), kwargs={}):group:分组(基本不用)target:表示这个进程实例所调用的对象.name:给进程起一个别名args:参数,表示调用对象的位置参数元组kwargs:表示调用对象的关键字参数字典注意:target后是函数...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python多进程分块读取超大文件的方法

Python多进程分块读取超大文件的方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python多进程分块读取超大文件的方法】教程文章相关的互联网学习教程文章

python_并发编程——多进程的第二种启动方式【代码】【图】

Python一篇学会多进程【代码】【图】

PYTHON自动化Day10-经典类和新式类的区别、重写父类方法、多线程、多进程、数据驱动框架的编写【代码】

Python中的多进程【代码】

也说性能测试，顺便说python的多进程嵌套多线程【代码】

python并发编程之多进程【代码】

cpython多进程【代码】

python 多进程【代码】

python 并发编程多进程 Process对象的其他属性方法 join 方法【代码】

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

python 多进程【代码】

python多进程，并获取每个进程的返回值【代码】

Python多进程机制实例详解【代码】

Python多进程并发(multiprocessing)

Python 多进程编程之multiprocessing--Process【代码】

PYTHON - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程