【python集合set,交集,并集,差集,对称差集,子集和超集】教程文章相关的互联网学习教程文章

使用python读取HDF4文件 – 多个具有相同名称的数据集【代码】

我有一个我需要用python阅读的HDF4文件.为此,我使用pyhdf.在大多数情况下,我很高兴使用SD类打开文件:import pyhdf.SD as SD hdf = SD.SD(hdfFile)然后继续v1 = hdf.select('Data set 1') v2 = hdf.select('Data set 2')但是我在HDF文件中有几个组,并且一些变量出现在具有相同名称的多个组中: 在第1组中,我有数据集3,在第2组中,我有数据集3,所以我的选择命令只会选择其中一个(我不知道哪一个?). 有没有一种简单的方法可以从第1组...

python – 如何表示然后将具有不同列数的自定义数据集加载到sci-kit learn中

我正在进行击键生物识别认证项目.它就像是传统的基于密码的身份验证的包装器.如果密码正确,它会检查“打字节奏”,如果匹配用户的个人资料,则会给出正输出.否则,给出负输出.通过映射在键入密码时提取的一些定时属性来检查“打字节奏”.基本上有5个特征,即PP(按下时间),PR(按下释放时间),RP(释放 – 按下时间),RR(释放 – 释放时间)和总时间. PP是按两个连续键(字符)之间的时间. RR是释放两个连续密钥之间的时间. PR是按下按键和释放...

使用ckanapi和Python创建包含资源的CKAN包/数据集【代码】

CKAN提供了ckanapi软件包,可通过Python或命令行访问the CKAN API. 我可以使用它来下载元数据,创建资源等.但我无法在单个API调用中创建包并将资源上传到它. (包也称为数据集.) 在内部,ckanapi scans all keys moving any file-like parameters into a separate dict,它passes to the requests.session.post(files=..) parameter. 这是我能得到的最接近但CKAN返回HTTP 500错误(从this guide to requests复制):with ckanapi.RemoteCK...

在Python中使用scipy kmeans和kmeans2集群时出现问题【代码】

我有一个关于scipy的kmeans和kmeans2的问题.我有一组1700个lat-long数据点.我想在空间上将它们聚类成100个簇.但是,当使用kmeans vs kmeans2时,我得到了截然不同的结果.你能解释一下这是为什么吗?我的代码如下. 首先,我加载数据并绘制坐标.这看起来都很正确.import pandas as pd, numpy as np, matplotlib.pyplot as plt from scipy.cluster.vq import kmeans, kmeans2, whitendf = pd.read_csv('data.csv') df.head()coordinates ...

python – 使用h5py随机播放HDF5数据集【代码】

我有一个大的HDF5文件(~30GB),我需要在每个数据集中随机输入(沿0轴).通过h5py文档查看我无法找到randomAccess或shuffle功能,但我希望我错过了一些东西. 是否有人熟悉HDF5,想到一种快速随机播放数据的方法? 这是我用我有限的知识实现的伪代码:for dataset in datasets:unshuffled = range(dataset.dims[0])while unshuffled.length != 0:if unshuffled.length <= 100:dataset[:unshuffled.length/2], dataset[unshuffled.length/2...

python – 如何加速400万集交叉点?【代码】

我是一名缺乏经验的程序员,正在通过Python进行大量的生物信息学练习. 一个问题区域计算名称组之间的集合交集中的元素,以及计算在字典中的存储.每个列表有两个2000个名称组;名称组中的名称是物种的拉丁名称.例如:list__of_name_groups_1 = [['Canis Lupus', 'Canis Latrans'],['Euarctos Americanus', 'Lynx Rufus'],... ] list__of_name_groups_2 = [['Nasua Narica', 'Odocoileus Hemionus'],['Felis Concolor', 'Peromyscus Ere...

python – Numpy:如何向量化应用于数据集的函数的函数形式的参数【代码】

最后,我想删除下面代码中的所有显式循环,以利用C中的numpy向量化和函数调用而不是python. 下面简化了python中numpy的使用.我有以下二次函数:def quadratic_func(a,b,c,x):return a*x*x + b*x + c我正在尝试优化a,b,c给定输入数据x和相同大小的输出数据y的选择(当然,这应该通过线性回归来完成……但是幽默我).说len(x)= 100.使用标量a,b,c轻松进行矢量化以获得长度为100的结果. 假设我们知道a,b,c应该在[-10,10]之内,并且我通过构建...

Python matplotlib barbs / quiver将颜色映射到不同的值集【代码】

我试图在matplotlib中创建一个倒钩矢量图并将一些颜色映射到特定的幅度:例如,将幅度在10到20之间的矢量绘制为蓝色,将20到30之间的矢量绘制为rgb(0,15,40),等等. barbs和quiver函数的文档(它们类似)提到了C输入arg: 倒钩(X,Y,U,V,C,** kw) 参数: X,Y:倒钩位置的x和y坐标(默认为倒钩头;参见枢轴kwarg) U,V:给出倒钩轴的x和y分量 C:用于将颜色映射到倒钩的可选数组 然而,这是非常模糊的,并且在搜索了整个Google之后,我并没有更接...

python – Django ModelAdmin从ModelForm获取查询集【代码】

我使用ModelForm从模型创建表单,以便在我的网站上的不同位置使用.表单有一个外键字段,需要根据用户进行过滤.我已成功完成此操作:class TestForm(ModelForm):def __init__(self,user,*args,**kwargs):super (TestForm,self ).__init__(*args,**kwargs) # populates the postself.fields['controller'].queryset = Controller.objects.filter(user=user)class Meta:model = Testexclude = ['customer']然后在我的视图中使用:form =...

python – 按距离相对于给定位置排序查询集【代码】

我有一个包含纬度和经度信息的模型作为FloatFields.class Trader(models.Model):latitude = models.FloatField()longitude = models.FloatField()我想通过距离给定位置(lat,lon)越来越远的距离来命令这个模型,但似乎不能使用F()表达式(使用hasrsine库,我没有成功将它们转换为浮点数)Trader.objects.all().annotate(distance=haversine((lat, lon), (float(F('latitude')), float(F('longitude'))))).order_by('distance')此查询将引...

python – 以.CSV格式从AVL(GPS)数据创建伪GTFS数据集【代码】

我有一个城市公共交通系统的.csv格式的自动车辆位置(AVL)数据集.我想使用此AVL数据集来构建GTFS dataset,以便运行可访问性分析. 我已经看到了如何基于存储在SQL数据库中的GPS数据创建GTFS数据集的解决方案(here),但是当GPS数据以.csv格式存储时我没有找到解决方案,这就是这里的情况.我很乐意对此有任何帮助,但如果解决方案可以是R或Python,我会很高兴. 我已经有了GTFS的stops.txt文件,但我想我需要创建文件shapes.txt,tips.txt,rou...

找到多个重叠矩形的并集 – OpenCV python【代码】

我有几个重叠的边界框,包含一个对象,但它们在某些地方最低限度重叠.作为一个整体,它们包含整个对象,但openCV的groupRectangles函数不会返回包含该对象的框.我有的边框用蓝色显示,我想要返回的边框在这里用红色显示 我想得到只有重叠矩形的联合但不确定如何迭代列表而不组合每个矩形.我有下面显示的并集和交叉函数,以及由(x y w h)表示的矩形列表,其中x和y是框左上角的坐标.def union(a,b):x = min(a[0], b[0])y = min(a[1], b[1])w...

python – Django:将计算应用于查询集【代码】

我有一个QuerySet,我希望传递给分页的通用视图:links = Link.objects.annotate(votes=Count('vote')).order_by('-created')[:300]这是我的“热门”页面,其中列出了我最近的300份提交内容(每页30个链接的10页).我想现在通过HackerNews使用的算法对此QuerySet进行排序:(p - 1) / (t + 2)^1.5 p = votes minus submitter's initial vote t = age of submission in hours现在因为在整个数据库上应用这个算法将是非常昂贵的,我只满足于...

python设置与对象集的交集【代码】

我正在与亚马逊博托合作,我有2个名单.列表1包含实例对象.列表2包含InstanceInfo对象.两个对象都有一个名为id的属性.我需要获取InstanceInfo列表中存在id的Instance对象列表.l1 = [Instance:i-04072534, Instance:i-06072536, Instance:i-08072538, Instance:i-0a07253a, Instance:i-e68fa1d6, Instance:i-e88fa1d8, Instance:i-ea8fa1da, Instance:i-ec8fa1dc]l2 = [InstanceInfo:i-ec8fa1dc, InstanceInfo:i-ea8fa1da, InstanceIn...

Python算法从正数据集中获取随机负数据集【代码】

我有一个包含独特蛋白质对的文件,即阳性数据集.我们称之为infile.下面是一个infile内容的例子:Q9VRA8 A1ZBB4 Q03043 Q9VX24 B6VQA0 Q7KML2条目以制表符分隔.随机数据集,我们称之为outfile,必须包含单个蛋白质的组合,其方式是它们无法以任何顺序匹配infile的内容.例如,对于上面的第一行,随机化的outfile不能包含以下对:Q9VRA8 A1ZBB4 A1ZBB4 Q9VRA8此外,生成的负数据集必须包含正数据集中完全相同数量的蛋白质对.为了解决这个...