首页 / 算法 / Python算法从正数据集中获取随机负数据集

Python算法从正数据集中获取随机负数据集

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python算法从正数据集中获取随机负数据集，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1744字，纯文字阅读大概需要3分钟。

内容图文

我有一个包含独特蛋白质对的文件,即阳性数据集.我们称之为infile.
下面是一个infile内容的例子：

Q9VRA8  A1ZBB4
Q03043  Q9VX24
B6VQA0  Q7KML2

条目以制表符分隔.
随机数据集,我们称之为outfile,必须包含单个蛋白质的组合,其方式是它们无法以任何顺序匹配infile的内容.例如,对于上面的第一行,随机化的outfile不能包含以下对：

Q9VRA8  A1ZBB4
A1ZBB4  Q9VRA8

此外,生成的负数据集必须包含正数据集中完全相同数量的蛋白质对.
为了解决这个问题,我尝试了以下方法：

# Read original file
data = list(infile.readlines())
ltotal = len(data)
lwritten = 0

# Split original file in words
with open (infilename, 'rt') as infile:
    pairs = set(frozenset(line.split()) for line in infile)
words = list(itertools.chain.from_iterable(pairs))
random.shuffle(words)

# Obtain pairs of words
with open(outfilename, 'wt') as outfile:
    for pair in itertools.izip(*[iter(words)] * 2):
        if frozenset(pair) not in pairs and lwritten != ltotal:
            outfile.write("%s\t%s\n" % pair)
            lwritten += 1

这有效.然而,infile总共有856471行,outfile获得不同范围的蛋白质对,最小值为713000.

我该如何解决这个问题,因此产生的对数与infile完全相同？
另外,我无法解决反向对订单问题.这两个问题都有想法吗？

提前致谢.

解决方法:

要排除独立于订单的对,我只需将两个订单放入我的对列表中：
即我将：line.split()和line.split()[:: – 1]添加到对的集合中.

要生成更多对,而不是遍历单词列表,只需选择随机对(可能使用random.choice？)然后根据无效对列表对它们进行否决(您可能还需要考虑生成配对“A1ZBB4 A1ZBB4”并采取相应的行动).只要你愿意,你就可以继续这样做.由于您需要确保输出仅包含唯一元素,因此可以在生成输出项时将输出项添加到否决列表(或作为单独的否决列表进行维护).

如果要减少内存占用,可以设置：

>对是否决对的集合,但每对都在内部排序,即如果您读取“Q9VRA8 A1ZBB4”,则将其存储为“A1ZBB4,Q9VRA8”对.
>您生成上面的随机对,检查该对的排序版本是否在您的否决列表中,如果是,请忽略它.

内容总结

以上是互联网集市为您收集整理的Python算法从正数据集中获取随机负数据集全部内容，希望文章能够帮你解决Python算法从正数据集中获取随机负数据集所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/783945.html

来源：【匿名】

【上一篇】常见的几种 Normalization 算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【Python算法从正数据集中获取随机负数据集】教程文章相关的互联网学习教程文章

python——算法攻坚课

递归二分法：汉诺塔八皇后问题全排列数字拆分算法原文：https://www.cnblogs.com/ting152/p/12986719.html

一、评估算法的方式分两种，一种是分类算法的评估，一种是回归算法的评估。为什么要分两种呢，因为分类算法中可以通过准确率、精准率、召回率、混淆矩阵、AUC来评估算法的准确度。但是在预测值的时候是没有办法去获得这个准确值（比如分类对了，那就对了，错了就是错了，可以通过对错来统计准确率），那么回归算法的方式，就通过均方误差来确认算法的准确度。　　二、分类算法的评估（以K-近邻算法来说） knn = KNeighborsClass...

Python算法-冒泡排序【代码】

#coding:utf-8""" 冒泡排序原理：依次重复访问每一个需要排序的元素，每次比较相邻的两个元素是否符合顺序，若不符合就交换，直到没有不符合顺序的为止。 """def bubble_sort(para_list, ordered = True):‘‘‘‘‘‘len_para_list = len(para_list)assert len_para_list >= 2for i in range(len_para_list - 1, 0, -1):for j in range(i):if para_list[j] > para_list[j + 1] and ordered:para_list[j], para_list[j + 1] = par...

Python之路【第二十四篇】Python算法排序一【代码】【图】

什么是算法1、什么是算法算法(algorithm):就是定义良好的计算过程，他去一个或一组的值为输入，并产生出一个或一组至作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。2、算法的意义假设计算机无限快，并且计算机存储容器是免费的，我们还需要各种乱七八糟的算法吗？如果计算机无限快，那么对于某一个问题来说，任何一个都可以解决他的正确方法都可以的！当然，计算机可以做到很快，但是不能做到无限快...

JavaScript算法 ,Python算法,Go算法,java算法,系列之【归并排序】篇【代码】【图】

常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括： 650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108060054389.jpg" title="1513609480-59142359dda6f_articlex.png" />归并排序（英语：Merge sort，或mergesort），是创建在归并操作上的一种有效的排序算法，效率为O(n log n)。1945年由约翰·冯·诺伊曼首次提出。该算法是采用分治法...

python算法之汉诺塔【代码】

代码如下：#!/usr/bin/env python # encoding: utf-8""" @author: 侠之大者kamil @file: 汉诺塔.py @time: 2016/3/20 20:00 """ m = input(">>Please enter a maximum value of the sequence:") m = int(m)+1 def move(a,b,c,n):if n ==1:print("%s ->> %s : %s" %(a[0],b[0],a[-1]))b.append(a.pop())print(x,y,z)returnmove(a,c,b,n-1)print("%s ->> %s : %s" %(a[0],b[0],a[-1]))b.append(a.pop())print(x,y,z)move(c,b,a,n-1) ...

Python算法题----在列表中找到和为s的两个数字【代码】

列表data的值为[1, 3, 4, 5, 8, 9, 11]，找出这个列表中和为13的两个数字的所有组合。这个好找，上过幼儿园大班的，估计都能找出来。4+9=13, 5+8=13。如何用python写一个函数来实现呢。解法一：超级大循环最容易想到的就是遍历啊。嵌套循环，外层循环遍历全部列表，内层循环遍历当前元素位置之后的所有元素。内层循环中将两个数字相加，等于13就break。妥妥找到。def equalSum01(data=None, twosum=13): result = [] for i...

python算法【代码】【图】

引言定义：算法就是按照一定步骤解决问题的办法属性：正确：就是可以正确的求解问题快速：就是时间复杂度要尽量小有穷性：要在有限个步骤解决问题渐进分析法为什么可以做到与算法运行硬件环境无关？算法分析时往往假设输入规模n足够大,甚至趋近于无穷大。这样的假设,意味着我们关注的是算法运算时间的增长率,也就是,随着输入规模n的增长,T(n)的增长率。当n趋向于无穷大时,决定T(n)增长率的便是T(n)中的高次项,从而可以忽略T(n)中的...

python算法-选择排序

选择排序：一、语言描述：从一列数字中依次选出最小的放第一位，次小的放第二位，依次类推完成整个排序第一次遍历，找到最小的数字，放在第一个位置第二次遍历，找到第二大的数字，放在第二个位置...... 以此类推，完成整个排序固定位置，找元素对于n个元素的数组，从第一个位置开始，找到最小，放在第一个位置从第二个位置开始，剩下的数组中，找到最小，放在第二个位置....从第n-1个位置开始，在剩下的数组中，找到最小，放在第n...

Python算法题----最大公约数【代码】

求最大公约数，辗转相除法。仍然是递归和递推的算法。不解释，上代码。 def divideNum01(n1, n2): while n1 % n2 != 0: r = n1 % n2 n1 = n2 n2 = r else: return n2 def divideNum02(n1, n2): if n1 % n2 == 0: return n2 else: return divideNum02(n2, n1 % n2)本文出自 “烛影摇红” 博客，请务必保留此出处http://gccmx.blog.51cto.com/47...

枚举-完美立方Python算法实现

题目：? 形如a 3 = b 3 + c 3 + d 3 的等式被称为完美立方等式。例如12 3 = 6 3 + 8 3 + 10 3 。编写一个程序，对任给的正整数N(N≤100)，寻找所有的四元组(a, b, c, d)，使得a 3 = b 3 +c 3 + d 3 ，其中a,b,c,d 大于 1, 小于等于N，且b<=c<=d。? 输入一个正整数N (N≤100)。? 输出每行输出一个完美立方。输出格式为：Cube = a, Triple = (b,c,d)其中a,b,c,d所在位置分别用实际求出四元组值代入。 import mathinputNum = input("请...

自动化测试常见Python算法题&答案【代码】

本篇整理了上一篇Python算法题的答案，因为后面自己接触到了lambda，reduce,filter等函数，所以部分题目写了两种或者多种实现方式。算法题&答案如下： 1# ----------------公司一---------------- 2#第一道题: 3 str001 = "my love is you do you konw it ? do you love me ?" 4 list001 = str001.split(‘‘)5print(list001)6print(str001.count(‘‘))7print("单词的总数为%s" % (len(list001))) #14 8print("空格的总数为...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / Python算法从正数据集中获取随机负数据集

Python算法从正数据集中获取随机负数据集

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python算法从正数据集中获取随机负数据集】教程文章相关的互联网学习教程文章

python——算法攻坚课

Python之算法评估-4【代码】

Python算法-冒泡排序【代码】

Python之路【第二十四篇】Python算法排序一【代码】【图】

JavaScript算法 ,Python算法,Go算法,java算法,系列之【归并排序】篇【代码】【图】

python算法之汉诺塔【代码】

Python算法题----在列表中找到和为s的两个数字【代码】

python算法【代码】【图】

python算法-选择排序

Python算法题----最大公约数【代码】

枚举-完美立方Python算法实现

自动化测试常见Python算法题&答案【代码】

python--算法--九九乘法表【代码】

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

《python算法教程》怎么样【图】

PYTHON - 相关标签

算法 - 相关标签

数据 - 相关标签

算法 - 最新教程

算法 - 最热教程