首页 / PYTHON / python – 处理来自多个进程的单个文件

python – 处理来自多个进程的单个文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 处理来自多个进程的单个文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2819字，纯文字阅读大概需要5分钟。

内容图文

我有一个大文本文件,我想处理每一行(做一些操作)并将它们存储在数据库中.由于单个简单程序花费的时间太长,我希望它可以通过多个进程或线程来完成.
每个线程/进程应从该单个文件中读取不同的数据(不同的行),并对其数据(行)执行一些操作并将它们放入数据库中,以便最终处理完所有数据并进行处理.数据库与我需要的数据一起转储.

但我无法弄清楚如何处理这个问题.

解决方法:

您正在寻找的是生产者/消费者模式

基本线程示例

这是使用threading module的基本示例(而不是多处理)

import threading
import Queue
import sys

def do_work(in_queue, out_queue):
    while True:
        item = in_queue.get()
        # process
        result = item
        out_queue.put(result)
        in_queue.task_done()

if __name__ == "__main__":
    work = Queue.Queue()
    results = Queue.Queue()
    total = 20

    # start for workers
    for i in xrange(4):
        t = threading.Thread(target=do_work, args=(work, results))
        t.daemon = True
        t.start()

    # produce data
    for i in xrange(total):
        work.put(i)

    work.join()

    # get the results
    for i in xrange(total):
        print results.get()

    sys.exit()

您不会与线程共享文件对象.您可以通过向queue提供数据行来为他们开展工作.然后每个线程将获取一行,处理它,然后将其返回队列中.

multiprocessing module中内置了一些更高级的工具来共享数据,例如列表和special kind of Queue.使用多处理与线程之间需要权衡取决于你的工作是cpu绑定还是IO绑定.

基本的多处理.Pool示例

这是一个多处理池的基本示例

from multiprocessing import Pool

def process_line(line):
    return "FOO: %s" % line

if __name__ == "__main__":
    pool = Pool(4)
    with open('file.txt') as source_file:
        # chunk the work into batches of 4 lines at a time
        results = pool.map(process_line, source_file, 4)

    print results

A Pool是管理其自身进程的便利对象.由于打开的文件可以遍历其行,因此您可以将其传递给pool.map(),它将循环遍历它并将行传递给worker函数. Map阻塞并在完成后返回整个结果.请注意,这是一个过于简化的示例,并且pool.map()将在完成工作之前将您的整个文件一次性读入内存.如果您希望有大文件,请记住这一点.有更先进的方法来设计生产者/消费者设置.

手动“池”,带限制和行重新排序

这是Pool.map的一个手动示例,但您可以设置一个队列大小,而不是一次性消耗整个迭代,而只是按照它可以处理的速度一个接一个地提供它.我还添加了行号,以便您可以跟踪它们并在以后根据需要引用它们.

from multiprocessing import Process, Manager
import time
import itertools 

def do_work(in_queue, out_list):
    while True:
        item = in_queue.get()
        line_no, line = item

        # exit signal 
        if line == None:
            return

        # fake work
        time.sleep(.5)
        result = (line_no, line)

        out_list.append(result)


if __name__ == "__main__":
    num_workers = 4

    manager = Manager()
    results = manager.list()
    work = manager.Queue(num_workers)

    # start for workers    
    pool = []
    for i in xrange(num_workers):
        p = Process(target=do_work, args=(work, results))
        p.start()
        pool.append(p)

    # produce data
    with open("source.txt") as f:
        iters = itertools.chain(f, (None,)*num_workers)
        for num_and_line in enumerate(iters):
            work.put(num_and_line)

    for p in pool:
        p.join()

    # get the results
    # example:  [(1, "foo"), (10, "bar"), (0, "start")]
    print sorted(results)

内容总结

以上是互联网集市为您收集整理的python – 处理来自多个进程的单个文件全部内容，希望文章能够帮你解决python – 处理来自多个进程的单个文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/951972.html

来源：【匿名】

【上一篇】python – 管道子进程标准输出到变量【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 处理来自多个进程的单个文件】教程文章相关的互联网学习教程文章

Python 多进程【代码】

import threading from time import sleep from msalt_proxy.client import Client def f(t):print tcli=Client(t,‘*‘,role=‘server‘)cli.sys.ping() from multiprocessing import Process if __name__ == ‘__main__‘:p = Process(target=f, args=(‘ljx2‘,))p.start()p.join()p1 = Process(target=f, args=(‘ljx1,))p1.start()p1.join() 原文：http://www.cnblogs.com/Xjng/p/3794948.html

Python网络编程之线程与进程

What is a Thread？线程是操作系统能够进行运算调度的最小单位，它被包含在进程之中，是进程中的实际运作单位，一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。在同一个进程内的线程的数据是可以进行互相访问的。线程的切换使用过上下文来实现的，比如有一本书，有a和b这两个人(两个线程)看，a看完之后记录当前看到那一页哪一行，然后交给b看，b看完之后记录当前看到了那一页...

python调用外部子进程，通过管道实现异步标准输入和输出的交互【代码】【图】

我们通常会遇到这样的需求：通过C++或其他较底层的语言实现了一个复杂的功能模块，需要搭建一个基于Web的Demo，方法查询数据。由于Python语言的强大和简洁，其用来搭建Demo非常合适，Flask框架和jinja2模块功能为python提供了方便的web开发能力。同时，python能够很方便的同其他语言的代码交互。因此我们选择python作为开发Demo的工具。假设我们需要调用的模块（提供底层服务）通过标准输入循环读入数据，处理完毕后把结果写出到标...

python之路第九编_线程和进程

进程、线程　　进程：程序的一次执行　　线程：CPU的基本调度单元每一个进程提供需要执行程序的资源。一个进程有一个虚拟的地址空间，执行代码，开放的句柄系统对象，一个安全的情景感知，一个唯一的进程标识符，环境变量，一个优先级类，最小和最大的工作尺寸，至少有一个线程的执行，每一个进程以一个线程开始，叫做主线程，主线程可以创建多个子线程进程是CPU一堆指令的集合，在单核CPU中，cpu一次只能执行一次任务。例如在一个...

基于Python+协程+多进程的通用弱密码扫描器【代码】

听说不想扯淡的程序猿，不是一只好猿。所以今天来扯扯淡，不贴代码，只讲设计思想。 0x00 起 - 初始设计我们的目标是设计一枚通用的弱密码扫描器，基本功能是针对不同类型的弱密码，可方便的扩展，比如添加SSH、SVN、phpmyadmin的弱密码扫描功能。我们设定启动方法是命令行，可以通过命令行指定扫描对象，以及扫描哪些弱密码。既然是要求可扩展，那我们首先来编写一个通用的框架，然后通过添加POC的方法来实现扩展。在这个框架中，...

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

考核题目中涉及到多线程编程，于是复习了一下系统编程里面的各种概念。首先，程序是代码，没有活动。通过编译连接之后被加载到内存里运行时，内存活动的就是进程，这里的进程不仅仅是代码段，还包括涉及的数据等。而线程是在同一个进程下的小程序，它们可以“同时”地运行，其中会有一个主线程来控制。接下来是多线程或着多进程的实现，两者原理基本一样，都是把CPU的时间分片然后进行分配给某个进程或者线程，也就是说在同...

Python查看多台服务器进程的脚本分享

最近做自己开发用相关服务的一个checklist，就写了这个脚本，用来在跳板机去检查各个服务器上面的相关服务是否正常使用expect登录每个机器(因为安全问题，不能直接使用ssh信任),然后根据yaml文件的配置读取服务名字以及启动的进程数量去检查每个服务是否正常 PS：难点是没有用端口转发也只有普通用户权限checklist.py复制代码代码如下:#coding=utf-8import sys#因为我这个脚本要让很多人能运行，但是不能给他们看见我的密码算法,...

python 学习笔记多进程【代码】

要让python程序实现多进程，我们先了解操作系统的相关知识Unix/Linux操作系统提供了一个fork()系统调用，他非常特殊，普通的函数调用，调用一次，返回一次，但是fork调用一次，返回两次，因为操作系统自动把当前进程称为父进程复制了一份，然后，分别在父进程和子进程返回。子进程永远返回0，而父进程返回子进程的ID.这样做的理由是，一个父进程可以fork出很多子进程，所以父进程要记下来子进程的ID，而子进程只需要调用getppid()就...

python进程池：multiprocessing.pool【代码】

https://www.cnblogs.com/kaituorensheng/p/4465768.html 在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。当被操作对象数目不大时，可以直接利用multiprocessing中的Process动态成生多个进程，十几个还好，但如果是上百个，上千个目标，手动的去限制进程数量却又太过繁琐，此时可以发挥进程池的功效。Pool可以提供指定数量的进程供用户调用，当有新的请求提交到...

python3 进程【代码】

开进程的两种方式：1. 使用内置的进程#!/usr/bin/env python #coding:utf-8 #Created by Andy @ 2017/9/17from multiprocessing import Process import osdef get_id(name):print(name,"Main process:",os.getppid(),"current process;", os.getpid())P1 = Process(target=get_id, args=(‘andy‘,)) P2 = Process(target = get_id, args=("Jack", ))if __name__ == "__main__":P2.start()P1.start()print("主进程") 2. 自定义进程...

python\进程和线程3【代码】【图】

1 multiprocessing模块（1.）直接导入 from multiprocessing import Process import os import time def info(name):print("name:",name)print(‘parent process:‘, os.getppid())print(‘process id:‘, os.getpid())print("------------------") def foo(name):info(name)time.sleep(50) if __name__ == ‘__main__‘:info(‘main process line‘)p1 = Process(target=info, args=(‘alvin‘,))p2 = Process(target=foo, args=(...

Python进程与线程

Python多进程multiprocessing.Pool类详解python多线程和多进程的区别进程和线程的区别进程能够完成多任务，比如在一台计算机上可以同时登陆运行很多个qq，只要计算机的运存足够大。线程也能够完成多任务，比如，在一个qq中可以同时与多人聊天，开启多个聊天窗口。定义的不同但是他们的定义是有区别的，进程是系统进行资源分配和调度的一个独立单位。而线程是进程的一个实体，是CPU调度和分派的基本单位，他是比进程更小的能独立运...

python中的多进程处理【代码】

转载于：http://blog.csdn.net/jj_liuxin/article/details/3564365帮助文档见https://docs.python.org/2.7/library/multiprocessing.html 众所周知，python本身是单线程的，python中的线程处理是由python解释器分配时间片的；但在python 3.0中吸收了开源模块，开始支持系统原生的进程处理——multiprocessing.注意：这个模块的某些函数需要操作系统的支持，例如，multiprocessing.synchronize模块在某些平台上引入时会激发一个Impo...

python中fork()函数生成子进程分析

python的os module中有fork()函数用于生成子进程，生成的子进程是父进程的镜像，但是它们有各自的地址空间，子进程复制一份父进程内存给自己，两个进程之间的执行是相互独立的，其执行顺序可以是不确定的、随机的、不可预测的，这点与多线程的执行顺序相似。 import osdef child():print ‘A new child:‘, os.getpid()print ‘Parent id is:‘, os.getppid()os._exit(0)def parent():while True:newpid=os.fork()print newpidif...

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

最近在看Python的多线程，经常我们会听到老手说：“python下多线程是鸡肋，推荐使用多进程！”，但是为什么这么说呢？要知其然，更要知其所以然。所以有了下面的深入研究：首先强调背景：1、GIL是什么？GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全所做的决定。2、每个CPU在同一时间只能执行一个线程（在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲都是同...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 处理来自多个进程的单个文件

python – 处理来自多个进程的单个文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 处理来自多个进程的单个文件】教程文章相关的互联网学习教程文章

Python 多进程【代码】

Python网络编程之线程与进程

python调用外部子进程，通过管道实现异步标准输入和输出的交互【代码】【图】

python之路第九编_线程和进程

基于Python+协程+多进程的通用弱密码扫描器【代码】

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

Python查看多台服务器进程的脚本分享

python 学习笔记多进程【代码】

python进程池：multiprocessing.pool【代码】

python3 进程【代码】

python\进程和线程3【代码】【图】

Python进程与线程

python中的多进程处理【代码】

python中fork()函数生成子进程分析

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

PYTHON - 相关标签

进程 - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程