首页 / PYTHON / python – 使用h5py随机播放HDF5数据集

python – 使用h5py随机播放HDF5数据集

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用h5py随机播放HDF5数据集，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2213字，纯文字阅读大概需要4分钟。

内容图文

我有一个大的HDF5文件(~30GB),我需要在每个数据集中随机输入(沿0轴).通过h5py文档查看我无法找到randomAccess或shuffle功能,但我希望我错过了一些东西.

是否有人熟悉HDF5,想到一种快速随机播放数据的方法？

这是我用我有限的知识实现的伪代码：

for dataset in datasets:
    unshuffled = range(dataset.dims[0])
    while unshuffled.length != 0:
        if unshuffled.length <= 100:
            dataset[:unshuffled.length/2], dataset[unshuffled.length/2:] = dataset[unshuffled.length/2:], dataset[:unshuffled.length/2]
            break
        else:
            randomIndex1 = rand(unshuffled.length - 100)
            randomIndex2 = rand(unshuffled.length - 100)

            unshuffled.removeRange(randomIndex1..<randomIndex1+100)
            unshuffled.removeRange(randomIndex2..<randomIndex2+100)

            dataset[randomIndex1:randomIndex1 + 100], dataset[randomIndex2:randomIndex2 + 100] = dataset[randomIndex2:randomIndex2 + 100], dataset[randomIndex1:randomIndex1 + 100]

解决方法:

您可以使用random.shuffle(数据集).对于配备Core i5处理器,8 GB RAM和256 GB SSD的笔记本电脑上的30 GB数据集,这需要11分钟多一点.请参阅以下内容：

>>> import os
>>> import random
>>> import time
>>> import h5py
>>> import numpy as np
>>>
>>> h5f = h5py.File('example.h5', 'w')
>>> h5f.create_dataset('example', (40000, 256, 256, 3), dtype='float32')
>>> # set all values of each instance equal to its index
... for i, instance in enumerate(h5f['example']):
...     h5f['example'][i, ...] = ...             np.ones(instance.shape, dtype='float32') * i
...
>>> # get file size in bytes
... file_size = os.path.getsize('example.h5')
>>> print('Size of example.h5: {:.3f} GB'.format(file_size/2.0**30))
Size of example.h5: 29.297 GB
>>> def shuffle_time():
...     t1 = time.time()
...     random.shuffle(h5f['example'])
...     t2 = time.time()
...     print('Time to shuffle: {:.3f} seconds'.format(str(t2 - t1)))
...
>>> print('Value of first 5 instances:\n{}'
...       ''.format(str(h5f['example'][:10, 0, 0, 0])))
Value of first 5 instances:
[ 0.  1.  2.  3.  4.]
>>> shuffle_time()
Time to shuffle: 673.848 seconds
>>> print('Value of first 5 instances after '
...       'shuffling:\n{}'.format(str(h5f['example'][:10, 0, 0, 0])))
Value of first 5 instances after shuffling:
[ 15733.  28530.   4234. 14869.  10267.]
>>> h5f.close()

改组几个较小数据集的性能不应该比这更差.

内容总结

以上是互联网集市为您收集整理的python – 使用h5py随机播放HDF5数据集全部内容，希望文章能够帮你解决python – 使用h5py随机播放HDF5数据集所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/772236.html

来源：【匿名】

【上一篇】python – 根据第二个NA值中的NA值覆盖pandas数据帧中的值【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 使用h5py随机播放HDF5数据集】教程文章相关的互联网学习教程文章

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

一、KNN算法的介绍　　K最近邻（k-Nearest Neighbor，KNN）分类算法是最简单的机器学习算法之一，理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量；然后根据距离计算待测试样本和每个训练样本的距离，选择距离最小的K个样本作为近邻样本；最后根据K个近邻样本判断待分类样本的类别。KNN算法的正确选取是分类正确的关键因素之一，而近邻样本是通过计算测试样本与每个训练集样本的距离来选定的，故定义合适的...

Python实现bp神经网络识别MNIST数据集【代码】

title: "Python实现bp神经网络识别MNIST数据集" date: 2018-06-18T14:01:49+08:00 tags: [""] categories: ["python"]前言训练时读入的是.mat格式的训练集，测试正确率时用的是png格式的图片代码#!/usr/bin/env python3# coding=utf-8import math import sys import os import numpy as np from PIL import Image import scipy.io as siodef sigmoid(x):return np.array(list(map(lambda i: 1/ (1+ math.exp(-i)), x)))def get_tra...

python 鸢尾花数据集报表展示【代码】

import seaborn as snsimport pandas as pdimport matplotlib.pyplot as pltsns.set_style(‘white‘,{‘font.sans-serif‘:[‘simhei‘,‘Arial‘]})from sklearn.datasets import load_irisdata = load_iris() #加载鸢尾花数据集tt = pd.DataFrame(data=data.data, columns=data.feature_names) #将数据集数据转换成pandatt[‘species‘] = data.target #把鸢尾花类型加入到数据集中data = tt#为了方便大家观看，把列名换成中文...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encodingfrom keras.models import Sequential from keras.l...

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

import tensorflow as tf# 输入数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("E:\\MNIST_data", one_hot=True)# 定义网络的超参数 learning_rate = 0.001 training_iters = 200000 batch_size = 128 display_step = 5# 定义网络的参数 # 输入的维度 (img shape: 28*28) n_input = 784 # 标记的维度 (0-9 digits) n_classes = 10 # Dropout的概率，输出的可能性 dropout = ...

Python深度学习之搭建小型卷积神经网络（Kaggle网站Dogs-vs-Cats数据集）

完全来源与《Python深度学习》中的例子，仅供学习只用。 Cats vs. Dogs（猫狗大战）是Kaggle大数据竞赛的数据集，数据集由训练数据和测试数据组成，训练数据包含猫和狗各12500张图片，测试数据包含12500张猫和狗的图片。我们取Cats vs. Dogs数据集中的2000个测试，1000验证，1000个测试，其中猫狗各一半。。在2000个训练样本上训练一个简单的小型卷积神经网络，不做任何正则化，为模型目标设定一个基准，这会得到73%的分类精度。...

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mpimg import seaborn as sns %matplotlib inlinenp.random.seed(2)from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix import itertoolsfrom keras.utils.np_utils import to_categorical # convert to one-hot-encoding from keras.models import Sequential from keras....

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

基于算法专项六，的tensorflow原理，用三层网络结构进行训练手写字数据集目录 1-手写数字数据集1.1数据集下载1.2数据集读取1.3进行各种样式的显示测试1.3.1显示单张样本1.3.1显示多张样本在一张影像上1.3.1显示多张样本在一张影像上并且在每张影像外面加白框2-用tensorflow框架搭建三层网络，训练手写字数据集2.1技巧1，用全连接方法代替专项六中的矩阵相乘并加上偏置项操作2.2tensorflow补充知识1、tf.one_hot()使用2、tf.nn.sof...

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

我遇到了一个问题,试图在传入Dataset map方法的函数中使用Tensorflow的feature_column映射.当尝试使用Dataset.map对数据集的分类字符串特征进行热编码作为输入管道的一部分时,会发生这种情况.我得到的错误信息是： tensorflow.python.framework.errors_impl.FailedPreconditionError：表已初始化. 以下代码是重新创建问题的基本示例：import numpy as np import tensorflow as tf from tensorflow.contrib.lookup import in...

python – Tensorflow数据集API中的过采样功能【代码】

我想问一下,当前的数据集API是否允许实现过采样算法？我处理高度不平衡的阶级问题.我当时认为在数据集解析过程中对特定类进行过采样会很好,即在线生成.我已经看到了rejection_resample函数的实现,但是这会删除样本而不是复制它们,并且它减慢了批处理生成(当目标分布与初始分布大不相同时).我想要实现的是：举一个例子,看看它的类概率决定是否复制它.然后调用dataset.shuffle(…)dataset.batch(…)并获取迭代器.最好的(在我看来)方法...

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

在张量流数据集管道中,我想定义一个自定义映射函数,它接受一个输入元素(数据样本)并返回多个元素(数据样本). 下面的代码是我的尝试,以及期望的结果. 我无法完全按照tf.data.Dataset().flat_map()上的文档来了解它是否适??用于此处.import tensorflow as tfinput = [10, 20, 30]def my_map_func(i):return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exceptionds = tf.data.Dataset.from_tensor_slices(input) ds ...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

我写了一篇文章深入解释神经网络如何从头开始工作. 为了说明博客文章,我在python using numpy编写了神经网络,并使用TensorFlow编写了一个版本.我在Github上传了代码来说明这个问题,但这不是一个干净的版本. 该网络的目标是根据其三个特征(公里,燃料类型,年龄)预测汽车的价格,这是我从头开始创建的玩具示例. 我从leboncoin.fr检索数据,我的数据集由大约9k辆车组成(仅限BMW系列1).我将数据标准化,使价格介于[0,1]之间,燃料类型采用二...

pytorch+visdomCNN处理自建图片数据集的方法【图】

这篇文章主要介绍了关于pytorch + visdom CNN处理自建图片数据集的方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下环境系统：win10cpu：i7-6700HQgpu：gtx965mpython : 3.6pytorch ：0.3数据下载来源自Sasank Chilamkurthy 的教程；数据：下载链接。下载后解压放到项目根目录：数据集为用来分类蚂蚁和蜜蜂。有大约120个训练图像，每个类有75个验证图像。数据导入可以使用 torchvision.datasets.ImageFol...

序列标注、手写小写字母OCR数据集、双向RNN

序列标注(sequence labelling)，输入序列每一帧预测一个类别。OCR(Optical Character Recognition 光学字符识别)。MIT口语系统研究组Rob Kassel收集，斯坦福大学人工智能实验室Ben Taskar预处理OCR数据集(http://ai.stanford.edu/~btaskar/ocr/ )，包含大量单独手写小写字母，每个样本对应16X8像素二值图像。字线组合序列，序列对应单词。6800个，长度不超过14字母的单词。gzip压缩，内容用Tab分隔文本文件。Python csv模块直接读取...

首页 / PYTHON / python – 使用h5py随机播放HDF5数据集

python – 使用h5py随机播放HDF5数据集

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用h5py随机播放HDF5数据集】教程文章相关的互联网学习教程文章

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

Python实现bp神经网络识别MNIST数据集【代码】

python 鸢尾花数据集报表展示【代码】

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

Python深度学习之搭建小型卷积神经网络（Kaggle网站Dogs-vs-Cats数据集）

吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集【代码】【图】

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

python – Tensorflow数据集API中的过采样功能【代码】

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

pytorch+visdomCNN处理自建图片数据集的方法【图】

序列标注、手写小写字母OCR数据集、双向RNN

PYTHON - 相关标签

播放 - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程