【python – 从具有多个数据集的散点图获取x,y?】教程文章相关的互联网学习教程文章

python – 从数据集上给定的日期范围中提取属于某一天的数据【代码】

我的数据集的日期范围是2018年1月12日到8月3日,其中包含一些值:my_df DataFrame的维度是:my_df.shape (9752, 2)每行包含半小时的频率 第一行开始于2018-01-12my_df.iloc[0] Date: 2018-01-12 00:17:28 Value 1 Name: 0, dtype: object最后一排结束于2018-08-03my_df.tail(1)Date: Value 9751 2018-08-03 23:44:59 1我的目标是选择与每天相对应的数据行并将其导出为CSV文件. 为了获得1月12日...

如何在Python pandas中重塑此数据集?【代码】

假设我有这样的数据集:is_a is_b is_c population infected 1 0 1 50 20 1 1 0 100 10 0 1 1 20 10 ...我如何重塑它看起来像这样?feature 0 1 a 10/20 30/150 b 20/50 20/120 c 10/100 30/70 ...在原始数据集中,我将a,b和c作为各自独立的列.在转换后的数据集中,列功能下列出了这些相同的变量,并生成了两个新列0和1,对应于这些...

python – sklearn:计算测试数据集上k-means的准确度分数【代码】

我正在对具有2个簇的30个样本的集合进行k-means聚类(我已经知道有两个类).我将我的数据分成训练和测试集,并尝试计算我的测试集上的准确度分数.但是有两个问题:首先我不知道我是否可以实际为k-means聚类做这个(测试集的准确度得分).第二:如果我被允许这样做,我的实现是写还是错.这是我尝试过的:df_hist = pd.read_csv('video_data.csv')y = df_hist['label'].values del df_hist['label'] df_hist.to_csv('video_data1.csv') X =...

用python处理AI数据集【图】

朋友们,我是床长! 如需转载请标明出处:http://blog.csdn.net/jiangjunshow 机器学习的核心是处理数据。你的机器学习工具应该与数据的质量一样好。本文涉及清理数据的各个步骤。你的数据需要经过几个步骤才能用于预测。 数据预处理涉及的步骤: 导入所需的库 导入数据集 处理缺失的数据。 编码分类数据。 将数据集拆分为测试集和训练集。 特征缩放。 那么让我们逐一学习这些步骤。 步骤1:导入所需的库 你先需要下载此数据...

使用python读取HDF4文件 – 多个具有相同名称的数据集【代码】

我有一个我需要用python阅读的HDF4文件.为此,我使用pyhdf.在大多数情况下,我很高兴使用SD类打开文件:import pyhdf.SD as SD hdf = SD.SD(hdfFile)然后继续v1 = hdf.select('Data set 1') v2 = hdf.select('Data set 2')但是我在HDF文件中有几个组,并且一些变量出现在具有相同名称的多个组中: 在第1组中,我有数据集3,在第2组中,我有数据集3,所以我的选择命令只会选择其中一个(我不知道哪一个?). 有没有一种简单的方法可以从第1组...

python – 如何表示然后将具有不同列数的自定义数据集加载到sci-kit learn中

我正在进行击键生物识别认证项目.它就像是传统的基于密码的身份验证的包装器.如果密码正确,它会检查“打字节奏”,如果匹配用户的个人资料,则会给出正输出.否则,给出负输出.通过映射在键入密码时提取的一些定时属性来检查“打字节奏”.基本上有5个特征,即PP(按下时间),PR(按下释放时间),RP(释放 – 按下时间),RR(释放 – 释放时间)和总时间. PP是按两个连续键(字符)之间的时间. RR是释放两个连续密钥之间的时间. PR是按下按键和释放...

使用ckanapi和Python创建包含资源的CKAN包/数据集【代码】

CKAN提供了ckanapi软件包,可通过Python或命令行访问the CKAN API. 我可以使用它来下载元数据,创建资源等.但我无法在单个API调用中创建包并将资源上传到它. (包也称为数据集.) 在内部,ckanapi scans all keys moving any file-like parameters into a separate dict,它passes to the requests.session.post(files=..) parameter. 这是我能得到的最接近但CKAN返回HTTP 500错误(从this guide to requests复制):with ckanapi.RemoteCK...

python – 使用h5py随机播放HDF5数据集【代码】

我有一个大的HDF5文件(~30GB),我需要在每个数据集中随机输入(沿0轴).通过h5py文档查看我无法找到randomAccess或shuffle功能,但我希望我错过了一些东西. 是否有人熟悉HDF5,想到一种快速随机播放数据的方法? 这是我用我有限的知识实现的伪代码:for dataset in datasets:unshuffled = range(dataset.dims[0])while unshuffled.length != 0:if unshuffled.length <= 100:dataset[:unshuffled.length/2], dataset[unshuffled.length/2...

python – Numpy:如何向量化应用于数据集的函数的函数形式的参数【代码】

最后,我想删除下面代码中的所有显式循环,以利用C中的numpy向量化和函数调用而不是python. 下面简化了python中numpy的使用.我有以下二次函数:def quadratic_func(a,b,c,x):return a*x*x + b*x + c我正在尝试优化a,b,c给定输入数据x和相同大小的输出数据y的选择(当然,这应该通过线性回归来完成……但是幽默我).说len(x)= 100.使用标量a,b,c轻松进行矢量化以获得长度为100的结果. 假设我们知道a,b,c应该在[-10,10]之内,并且我通过构建...

python – 以.CSV格式从AVL(GPS)数据创建伪GTFS数据集【代码】

我有一个城市公共交通系统的.csv格式的自动车辆位置(AVL)数据集.我想使用此AVL数据集来构建GTFS dataset,以便运行可访问性分析. 我已经看到了如何基于存储在SQL数据库中的GPS数据创建GTFS数据集的解决方案(here),但是当GPS数据以.csv格式存储时我没有找到解决方案,这就是这里的情况.我很乐意对此有任何帮助,但如果解决方案可以是R或Python,我会很高兴. 我已经有了GTFS的stops.txt文件,但我想我需要创建文件shapes.txt,tips.txt,rou...

Python算法从正数据集中获取随机负数据集【代码】

我有一个包含独特蛋白质对的文件,即阳性数据集.我们称之为infile.下面是一个infile内容的例子:Q9VRA8 A1ZBB4 Q03043 Q9VX24 B6VQA0 Q7KML2条目以制表符分隔.随机数据集,我们称之为outfile,必须包含单个蛋白质的组合,其方式是它们无法以任何顺序匹配infile的内容.例如,对于上面的第一行,随机化的outfile不能包含以下对:Q9VRA8 A1ZBB4 A1ZBB4 Q9VRA8此外,生成的负数据集必须包含正数据集中完全相同数量的蛋白质对.为了解决这个...

python – 从具有多个数据集的散点图获取x,y?【代码】

我有一个散点图,它由不同的散射调用组成:import matplotlib.pyplot as plt import numpy as npdef onpick3(event):index = event.indprint '--------------'print indexartist = event.artistprint artistfig_handle = plt.figure()x,y = np.random.rand(10),np.random.rand(10) x1,y1 = np.random.rand(10),np.random.rand(10)axes_size = 0.1,0.1,0.9,0.9 ax = fig_handle.add_axes(axes_size)p = ax.scatter (x,y, marker='*',...

Python脚本用多维数据集替换对象【代码】

我正在尝试创建一个Python脚本来在Maya中生成多维数据集,这些多维数据集表示对象空间边界框的对象. 例如,如果我在Maya中创建随机对象(球体,立方体,金字塔,锥体等),我想用一个具有该对象边界框尺寸的立方体替换这些选定对象. 因此,如果我创建3个不同的对象(例如圆锥体,球体和金字塔),则应该有三个单独的立方体作为这些对象的边界框. 这是我尝试构建的脚本,但是在此之后我就被卡住了. 我遵循的步骤: >创建一个球体. (通过单击Maya程...

python – 导入CIFAR – 10数据集到R【代码】

我正在尝试下载CIFAR – 10图像数据集;http://www.cs.toronto.edu/~kriz/cifar.html 在R但我似乎无法提取文件.我已经尝试了所有三种格式.bin,.mat和python.任何人都可以帮助提出一些如何提取它们的建议吗? 非常感谢,Will解决方法:与任何事情一样,我认为最简单的方法通常是捎带别人的勤奋.对于这种情况,这意味着寻找已经转换过它的其他人.快速谷歌搜索呈现this site(其中包含图像的R数据文件)是该方法的一个很好的候选者. 或者,如...

使用CKAN API和Python Requests库创建CKAN数据集【代码】

我正在使用CKAN 2.2版,我正在尝试自动化数据集创建和资源上传.我似乎无法使用python请求库创建数据集.我收到400错误代码.码:import requests, jsondataset_dict = {'name': 'testdataset','notes': 'A long description of my dataset', }d_url = 'https://mywebsite.ca/api/action/package_create' auth = {'Authorization': 'myKeyHere'} f = [('upload', file('PathToMyFile'))]r = requests.post(d_url, data=dataset_dict, h...