首页 / PYTHON / 用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？

用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3788字，纯文字阅读大概需要6分钟。

内容图文

研究方向为推荐系统，最近用python在delicious数据集上实现一种简单的基于标签的推荐算法，然后计算recall和precision。在几M的小型数据集上运行时间还可以（十几秒左右），但是在较大（几百兆，1g）的数据集上运行非常慢，我等了4个小时还没有算出结果。请问一下在不对算法进行优化的基础上，采用什么样的方法可以提升程序的运行速度？
实验环境：Ubuntu 13.10, 4G, intel i3-2310M, python 2.75.

回复内容：

这里面有两个原因吧：

首先，是算法的问题。复杂度不一样的算法，在数据规模大的情况下，运行速度差别会越来越大。你没有描述具体算法，所以我们也不知道能怎样提升算法。不过根据我的经验，机器学习算法慢很正常，因为计算量非常大。很多步骤如果你参照现成一些方法的话，基本就已经是已知的在算法复杂度和代码复杂度上做了非常好的平衡而且算法复杂度已经很不错的方法。要想再提高的话要么就要投入大量时间做学术研究，或者大量时间编写复杂的代码。

解决方法是你要自己分析你的程序，确定每一个部分的复杂度大概是多少，找出算法的瓶颈，然后花精力优化瓶颈上的算法。

第二个问题是众所周知的 python 本身速度慢的问题，python作为完全建立在解释器上的支持OO支持FP且类型dynamic的语言，能使用的机器指令优化非常有限，一般认为比native程序慢10-100倍是正常的。

解决方法：一个快速的 work-around 是使用 JIT 编译器例如 PyPy，速度可以提高大概几倍到10倍左右。另外，使用一个 profile 技术找到运行时间的瓶颈，可以把瓶颈部分用 C 重写，即可几乎达到native速度。

最后，在这个多核和云时代，你应该考虑多核甚至多机器了。 Python 本身又 GIL，一个进程内不支持计算意义上的多线程，把你的程序各个部件好好划分一下，分解成多进程。然后用一台机器的多个CPU同时跑，或者仍给多台机器跑。题主，让我来给你一些实用建议吧!

考虑拿C或C++重写.
考虑并行搞，找个hadoop集群，写成mapreduce程序跑放在hadoop上跑，更多数据都不怕.
考虑升级机器，多搞点内存，然后东西尽量放在内存里搞.
考虑程序优化.

你得看看你程序慢在什么地方，可以按照以下步骤：

首先，确信你真的需要把全部数据过一遍，如果可以通过一些糙快猛方式过滤掉无用数据，这样最好了. （比如有些明显无用的东西可以直接通过grep过滤掉，grep这种程序写的一般比你写的python程序要快好多好多好多好多）
top一下，看CPU跑满了吗？
单线程单进程实现？你能不能搞成多进程的？然后top看每个核都跑满了吗？
没跑满的话，那你你要努力充分利用你的CPU，要让CPU跑满！看看程序，没跑满是因为IO吗？是的话IO能搞成异步的么？或IO次数太多？能不能减少IO次数？甚至只搞一次IO，比如你那1G的东西，能不能一次全搞到内存里，然后所有东西在内存里处理（这样的话貌似写成C的更方便一点）
如果每个核心都跑满了，那就看看你的计算都花在什么地方，可以用hotshot等工具测一把. 可以粗略比较一下在 1/16 数据、1/8数据、1/4数据、1/2数据的情况下，hotshot的结果，看你的函数花的时间是怎么涨的.找出花时间最多的一个或几个东西（所谓瓶颈），有针对性的优化，可以事半功倍.
找到问题所在之后，寻求解决方案. 如果是python带的数据结构不不合适，能不能用numpy之类的东西解决，能不能用一些数据库解决（比如需要多个进程一起往一个大字典里写，可以考虑全往一个redis里写）.能不能有的地方用cython包装一个C实现.
如果是算法不够好，能不能优化算法. （这就说来话长了）

试试一些奇怪的东西，比如PyPy.

单机情况下，总结起来，就是：首先减少输入数据，然后不要浪费机器资源，要让所有CPU核心跑满（多进程 & 减少/不等待IO），内存只要还够用的话，就可劲用！然后找程序最慢的地方，针对其做各种优化.

如果有多机，弄到hadoop里搞，数据再多也不怕不怕啦！用delicious数据集即使是最naive的count（u，t）*（t，i）顺加inverse frequency都很慢吧。。。毕竟tag 和item都太多了。。。慢是正常的。。。首先你应该确认一下你的算法复杂度，比如数据翻倍后运行时间增加多少？正好看到这个 numfocus/python-benchmarks 路 GitHub profile + cython 一般来说最省力且最容易大幅度提升的反而是优化算法/使用profile优化实现。
其次是使用pypy/cython。
再其次使用numpy。
最后是改用其他语言。 python 数组遍历特别慢，可以结合 cython加速 i3-2310M？实验环境居然是在入门级笔记本上，你们实验室（公司）到底是有多困难？ numpy是比较慢，矩阵运算量大可以试一下Matlab。另外可以profile一下你的程序，看看哪个环节运算时间比较长。

内容总结

以上是互联网集市为您收集整理的用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？全部内容，希望文章能够帮你解决用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/435111.html

来源：【匿名】

【上一篇】学习tornado/django/flask等python框架需要哪方面知识？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？】教程文章相关的互联网学习教程文章

Python实现bp神经网络识别MNIST数据集【代码】

title: "Python实现bp神经网络识别MNIST数据集" date: 2018-06-18T14:01:49+08:00 tags: [""] categories: ["python"]前言训练时读入的是.mat格式的训练集，测试正确率时用的是png格式的图片代码#!/usr/bin/env python3# coding=utf-8import math import sys import os import numpy as np from PIL import Image import scipy.io as siodef sigmoid(x):return np.array(list(map(lambda i: 1/ (1+ math.exp(-i)), x)))def get_tra...

python 鸢尾花数据集报表展示【代码】

import seaborn as snsimport pandas as pdimport matplotlib.pyplot as pltsns.set_style(‘white‘,{‘font.sans-serif‘:[‘simhei‘,‘Arial‘]})from sklearn.datasets import load_irisdata = load_iris() #加载鸢尾花数据集tt = pd.DataFrame(data=data.data, columns=data.feature_names) #将数据集数据转换成pandatt[‘species‘] = data.target #把鸢尾花类型加入到数据集中data = tt#为了方便大家观看，把列名换成中文...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encodingfrom keras.models import Sequential from keras.l...

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

import tensorflow as tf# 输入数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("E:\\MNIST_data", one_hot=True)# 定义网络的超参数 learning_rate = 0.001 training_iters = 200000 batch_size = 128 display_step = 5# 定义网络的参数 # 输入的维度 (img shape: 28*28) n_input = 784 # 标记的维度 (0-9 digits) n_classes = 10 # Dropout的概率，输出的可能性 dropout = ...

Python深度学习之搭建小型卷积神经网络（Kaggle网站Dogs-vs-Cats数据集）

完全来源与《Python深度学习》中的例子，仅供学习只用。 Cats vs. Dogs（猫狗大战）是Kaggle大数据竞赛的数据集，数据集由训练数据和测试数据组成，训练数据包含猫和狗各12500张图片，测试数据包含12500张猫和狗的图片。我们取Cats vs. Dogs数据集中的2000个测试，1000验证，1000个测试，其中猫狗各一半。。在2000个训练样本上训练一个简单的小型卷积神经网络，不做任何正则化，为模型目标设定一个基准，这会得到73%的分类精度。...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encoding from keras.models import Sequential from keras....

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

基于算法专项六，的tensorflow原理，用三层网络结构进行训练手写字数据集目录 1-手写数字数据集1.1数据集下载1.2数据集读取1.3进行各种样式的显示测试1.3.1显示单张样本1.3.1显示多张样本在一张影像上1.3.1显示多张样本在一张影像上并且在每张影像外面加白框2-用tensorflow框架搭建三层网络，训练手写字数据集2.1技巧1，用全连接方法代替专项六中的矩阵相乘并加上偏置项操作2.2tensorflow补充知识1、tf.one_hot()使用2、tf.nn.sof...

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

我遇到了一个问题,试图在传入Dataset map方法的函数中使用Tensorflow的feature_column映射.当尝试使用Dataset.map对数据集的分类字符串特征进行热编码作为输入管道的一部分时,会发生这种情况.我得到的错误信息是： tensorflow.python.framework.errors_impl.FailedPreconditionError：表已初始化. 以下代码是重新创建问题的基本示例：import numpy as np import tensorflow as tf from tensorflow.contrib.lookup import in...

python – Tensorflow数据集API中的过采样功能【代码】

我想问一下,当前的数据集API是否允许实现过采样算法？我处理高度不平衡的阶级问题.我当时认为在数据集解析过程中对特定类进行过采样会很好,即在线生成.我已经看到了rejection_resample函数的实现,但是这会删除样本而不是复制它们,并且它减慢了批处理生成(当目标分布与初始分布大不相同时).我想要实现的是：举一个例子,看看它的类概率决定是否复制它.然后调用dataset.shuffle(…)dataset.batch(…)并获取迭代器.最好的(在我看来)方法...

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

在张量流数据集管道中,我想定义一个自定义映射函数,它接受一个输入元素(数据样本)并返回多个元素(数据样本). 下面的代码是我的尝试,以及期望的结果. 我无法完全按照tf.data.Dataset().flat_map()上的文档来了解它是否适??用于此处.import tensorflow as tfinput = [10, 20, 30]def my_map_func(i):return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exceptionds = tf.data.Dataset.from_tensor_slices(input) ds ...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

我写了一篇文章深入解释神经网络如何从头开始工作. 为了说明博客文章,我在python using numpy编写了神经网络,并使用TensorFlow编写了一个版本.我在Github上传了代码来说明这个问题,但这不是一个干净的版本. 该网络的目标是根据其三个特征(公里,燃料类型,年龄)预测汽车的价格,这是我从头开始创建的玩具示例. 我从leboncoin.fr检索数据,我的数据集由大约9k辆车组成(仅限BMW系列1).我将数据标准化,使价格介于[0,1]之间,燃料类型采用二...

pytorch+visdomCNN处理自建图片数据集的方法【图】

这篇文章主要介绍了关于pytorch + visdom CNN处理自建图片数据集的方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下环境系统：win10cpu：i7-6700HQgpu：gtx965mpython : 3.6pytorch ：0.3数据下载来源自Sasank Chilamkurthy 的教程；数据：下载链接。下载后解压放到项目根目录：数据集为用来分类蚂蚁和蜜蜂。有大约120个训练图像，每个类有75个验证图像。数据导入可以使用 torchvision.datasets.ImageFol...

序列标注、手写小写字母OCR数据集、双向RNN

序列标注(sequence labelling)，输入序列每一帧预测一个类别。OCR(Optical Character Recognition 光学字符识别)。MIT口语系统研究组Rob Kassel收集，斯坦福大学人工智能实验室Ben Taskar预处理OCR数据集(http://ai.stanford.edu/~btaskar/ocr/ )，包含大量单独手写小写字母，每个样本对应16X8像素二值图像。字线组合序列，序列对应单词。6800个，长度不超过14字母的单词。gzip压缩，内容用Tab分隔文本文件。Python csv模块直接读取...