首页 / PYTHON / python-一种对集合进行分区以从子集中获取最小方差总和的策略

python-一种对集合进行分区以从子集中获取最小方差总和的策略

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-一种对集合进行分区以从子集中获取最小方差总和的策略，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3984字，纯文字阅读大概需要6分钟。

内容图文

问题是：
我有一组数字,需要将其分为k个子集.我必须找到最佳的分区策略,以使每个子集的方差最小.没有子集可以为空
(方差是标准偏差的平方.)

k是大于0的整数.
近似值可以是1e 7

到目前为止,这是我的解决方案,适用于一些示例,但并非总是如此：

>按升序对样本(一组数字)进行排序.
>计算两个连续元素的距离.构造一个列表列表,子列表具有左元素和距离的索引(即[[idx,dist],[idx,dist] ……]).按距离降序对列表进行排序.
>使用我拥有的列表中的索引,从左到右获取索引以对升序排序的样本进行分区

Python代码：

class MinimumVariancePartition(object):
    def minDev(self, mixedSamples, k):
        # mixedSamples is a tuple, k is an integer.

        samples_ascending = sorted(mixedSamples)

        # Build a list of lists contains indices and distances.
        idx_dist = []
        for index in range(len(samples_ascending) - 1):
            starting_idx = index
            dist = abs(samples_ascending[index] - samples_ascending[index + 1])
            idx_dist.append([starting_idx, dist])

        sorted_idx_dist = sorted(idx_dist, key=lambda x: x[1], reverse=True)

        # Get a list of indices to split the sample.
        split_idx = []
        for i in range(k - 1):
            split_idx.append(sorted_idx_dist[i][0])

        # Get a list of subsets.    
        partitions = []
        if len(split_idx) == 0:
            partitions.append(mixedSamples)
        else:
            split_idx = sorted(split_idx)
            prev = 0
            for idx in split_idx:
                partitions.append(samples_ascending[prev:idx + 1])
                prev = idx + 1
            partitions.append(samples_ascending[prev:])

        # Compute the sum of variances
        result = 0
        for partition in partitions:
            variance = self.variance(partition)
            result += variance
        return result

    def variance(self, partition):
        # Compute variance of a subset
        size = len(partition)
        s = sum(partition)
        mean = float(s) / size
        variance = 0
        for n in partition:
            temp = round(n - mean, 14)**2  # use round() to avoid float number 'trick'
            variance += temp
        variance /= size
        return variance

测试通过：

input: (3, 4, 7, 10), 1
output: 7.5

input: (1000,500,1,500), 3
output: 0.0

input: (42,234,10,1,123,545,436,453,74,85,34,999), 5
output: 1700.7397959183672

测试失败：

input: (197, 611, 410, 779, 203, 15, 727, 446, 992, 722, 439, 296, 201, 820, 416, 272, 89, 146, 687, 203, 598, 65, 865, 945, 446, 783, 581, 270, 960, 22, 970, 698, 456, 706, 14, 901, 371, 688, 914, 925, 551, 15, 326, 620, 842, 82, 594, 99, 827, 660), 21
expected output: 757.3225
actual output: 824.586388889

input: (359, 408, 124, 89, 26, 878, 677, 341, 166, 434, 886, 539, 227, 420, 655, 330, 835, 378, 763, 401, 883, 332, 215, 424, 365, 841, 113, 825, 777, 969, 970, 668, 602, 708, 874, 930, 423, 549, 236), 13
expected output: 1588.0486111111109
actual output: 2163.79166667

input: (706, 835, 160, 432, 148, 472, 26, 917, 736, 342, 442, 479, 95, 800, 956), 4
expected output: 8172.465
actual output: 11259.875

我在想解决方案中的问题可能在于查找分区索引步骤,但是仍然不知道为什么它不起作用.

解决方法:

这是行不通的,因为您的算法思想不正确(仅考虑两个相邻元素之间的距离并不一定总能得出最佳解决方案).

您可以改用动态编程：
1.对数组排序.
2.假设f(first_free,sets_count)是方差的最小和,如果first_free元素是尚未添加到任何集合中的第一个元素,并且完全已经创建了sets_count个集合.
3.基本情况为f(0,0)=0.它对应一个空前缀.
4.过渡看起来像这样：

for first_free = 0 ... n - 1:
    for new_first_free = first_free + 1 ... n:
        for sets_count = 0 ... k - 1:
            f(new_first_free, sets_count + 1) = min(f(new_first_free, sets_count + 1),
                f(first_free, sets_count) + variance of the subset [first_free, new_first_free - 1])

>答案f(n,k)(其中n是集合中元素的数量).

这是我的实现(可以优化,它只是一个草图,但是可以正常工作)：

a = [706, 835, 160, 432, 148, 472, 26, 917, 736, 342, 442, 479, 95, 800, 956]
k = 4
mem = dict()
INF = 1e10


def get_variance(partition):
    size = len(partition)
    s = sum(partition)
    mean = float(s) / size
    variance = 0
    for n in partition:
        temp = round(n - mean, 14) ** 2
        variance += temp
    variance /= size
    return variance


def calc(pos, cnt):
    if (pos, cnt) in mem.keys():
        return mem[(pos, cnt)]
    if pos == 0 and cnt >= 0:
        return 0.0
    if cnt < 0:
        return INF
    res = INF
    for old_pos in range(0, pos):
        res = min(res, calc(old_pos, cnt - 1) + get_variance(a[old_pos: pos]))
    mem[(pos, cnt)] = res
    return res


if __name__ == '__main__':
    a.sort()
    print(calc(len(a), k))

内容总结

以上是互联网集市为您收集整理的python-一种对集合进行分区以从子集中获取最小方差总和的策略全部内容，希望文章能够帮你解决python-一种对集合进行分区以从子集中获取最小方差总和的策略所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/679429.html

来源：【匿名】

【上一篇】如何在Python中手动创建稀疏矩阵【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-一种对集合进行分区以从子集中获取最小方差总和的策略】教程文章相关的互联网学习教程文章

python知识点及面试面试大集合

题目来源：武sir--一个很有意思的人，点击这儿跳转一、基础篇为什么学习Python？通过什么途径学习的Python？Python和Java、PHP、C、C#、C++等其他语言的对比？简述解释型和编译型编程语言？Python解释器种类以及特点？位和字节的关系？b、B、KB、MB、GB 的关系？请至少列举5个 PEP8 规范（越多越好）。通过代码实现如下转换：二进制转换成十进制：v = “0b1111011”? 十进制转换成二进制：v = 18? 八进制转换成十进制：v = “011”...

python 基础---集合【代码】

集合（set）：可变的数据类型，他里面的元素必须是不可变的数据类型，无序，不重复。{} 1 set1 = set({1,2,3})2print(set1)3 4#增 add,update 5 set1 = {‘alex‘,‘wusir‘,‘ritian‘,‘egon‘,‘barry‘}6 set1.add(‘女神‘)7print(set1) #无序 8#{‘女神‘, ‘egon‘, ‘barry‘, ‘wusir‘, ‘alex‘, ‘ritian‘} 910 set1.update(‘男神‘) #迭代增加，相当于list中的extend,按对象一个一个加11print(set1) 12#{‘男‘, ‘...

python深浅拷贝，集合以及数据类型的补充【代码】

1.基础数据类型的补充1.元组如果元组中只有一个数据，且没有逗号，则该‘元组’与里面的数据的类型相同。如：1 tu = (1) 2 tu1 = (1,) 3 tu2 = (‘alex‘) 4 tu3 = ([1,2,3],) 5print(tu,type(tu)) # 1 <class ‘int‘>6print(tu1,type(tu1)) # (1,) <class ‘tuple‘>7print(tu2,type(tu2)) # alex <class ‘str‘>8print(tu3,type(tu3)) # ([1, 2, 3],) <class ‘tuple‘>2. 列表列表与列表是可以相加的，如：1 l1 = [1,2,...

python之set集合、深浅拷贝【代码】

一、基本数据类型补充1，关于int和str在之前的学习中已经介绍了80%以上了，现在再补充一个字符串的基本操作： li = [‘李嘉诚‘,‘何炅‘,‘海峰‘,‘刘嘉玲‘]s = "_".join(li)print(s) # 结果为：李嘉诚_何炅_海峰_刘嘉玲li = ‘黄花大闺女‘s = "_".join(li)print(s) # 结果为：黄_花_大_闺_女2，列表相关：　　循环删除列表中的每一个元素，有如下代码，注意结果并分析原因： li = [11,22,33,44]for e in li:li.remove(e)...

Python 字符串，列表，字典，集合的常用方法【代码】

Python 字符串，列表，字典，集合的常用方法String 字符串常用方法# find 方法查询字符串，返回子串所在的位置的最左段的索引# a = ‘asdfghjkl‘ # print(‘find 方法‘) # print(a.find(‘asd‘)) # print(a.find(‘dfg‘, 5, 10)) # print(‘-‘*50)# join 方法是非常重要的字符串方法，属于split方法的逆方法。用来连接序列中的元素，元素皆为字符串# b = [‘1‘, ‘2‘, ‘3‘, ‘4‘] # print(‘join 方法‘) # print(‘...

python--集合【代码】

重点：集合去掉重复的元素（简称去重）　　集合无序1、字符串集合，把字符串的每个字符分成若干个集合的元素a = set(‘chen‘) print(a) 输出： {‘c‘, ‘e‘, ‘n‘, ‘h‘} 2、集合去重a = set(‘chench‘) print(a) 输出： {‘h‘, ‘c‘, ‘n‘, ‘e‘} 3、集合的增　　set().add()a = set([‘chen‘,‘liang‘]) a.add(‘zhang‘) print(a) 输出： {‘chen‘, ‘zhang‘, ‘liang‘}set().update()a = set([‘chen‘,‘l...

matlab中怎样删除重复元素使得和Python中集合set的功能一样【代码】

1 >> m=[1,1,2,2,3];2 >> m3 4 m =5 611223 7 8 >> b=unique(m)910 b = 1112123使用unique函数;从而去掉重复元素,统计出现的元素及元素个数;例如： 1 >> a=[1,2,3,2;5,2,9,7;8,0,6,3];2 >> a3 4 a =5 61232 75297 88063 910 >> b=unique(a); 11 >> b 1213 b = 14150161172183195206217228239 原文：http://www.cnblogs.com/yuzhuwei/p/4101896.html

python(四）切片，内置函数，集合，json操作【代码】

1. 切片切片是只取列表或字符串中一部分或全部。定义一个list：l=[‘Monica‘,‘Josie‘,‘Shirley‘,‘Leo‘,‘Tina‘]s=[:] 取的是整个列表元素s=[0:2] 取得是下标为零和1的元素（不管是从前数还是从后数，切片的特点包头不包尾）s=[:2] 取得是小标为0和1的元素，当冒号前面不写下标时，默认从第一个元素开始s=[2:] 取得是下标为2一直到这个列表的最后一个s=[-3:-1] 写负数是从列表的最后开始数，要把小的写在前面s=[::2] ...

09-Python-集合【代码】

1、集合集合是一个无序的，不重复的数据组合，它的主要作用如下：去重，把一个列表变成集合，就自动去重了。关系测试，测试两组数据之前的交集、差集、并集等关系。2、集合的关系操作 1 list_1 = [1,3,4,5,7,8,9,3,4]2 3 list_1 = set(list_1) #转换为集合。自动去重。 4print(list_1,type(list_1))5 6 list_2 = set([0,1,2,6,8,10]) #创建集合。 7print(list_2)8print("\033[31;1m-----------\033[0m")9#交集10print(list_1.int...

python -- 结构数据类型（列表、元组、集合、字典）【代码】

一、列表列表表示一组有序的元素，这些元素可以是数字、字符串，也可以是另一个列表。# ----------------------------------------# 列表（list）：一组有序的元素# ----------------------------------------# 定义一个空的列表s = []# 定义一个全是数字的成绩列表score = [90, 92, 88, 79, 95, 82]# 可以通过索引值来访问列表中的元素，从左到右，起始值为0，最后一个元素为n-1first_one = score[0]# 也可以从右到左通过一个负数...

python set 集合【代码】

python的set, 是一个无序不重复元素集old_dict = { "#1":8, "#2":4, "#4":2,}new_dict = { "#1":4, "#2":2, "#3":2, }old_dict.add 是把要传入的元素做为一个整个添加到集合中old_dict.update是把要传入的元素拆分，做为个体传入到集合中old_dict.remove 集合删除old_dict.clear 删除所有new_set.difference(old_set) 以new_set为参考，列出不同原文：http://li...

Python顺序集合之 tuple【代码】

本文内容摘录自慕课网《Python入门》 1、tuple特性tuple是另一种有序的列表，中文翻译为“ 元组 ”。tuple 和 list 非常类似，但是，tuple一旦创建完毕，就不能修改了。 >>> t = (‘Adam‘, ‘Lisa‘, ‘Bart‘) 创建tuple和创建list唯一不同之处是用( )替代了[ ]。现在，这个 t 就不能改变了，tuple没有 append()方法，也没有insert()和pop()方法。所以，新元素没法直接往 tuple 中添加，在 tuple删除元素也不行。获取 tuple 元素...

python学习04－数据类型(元组、字典、集合)【代码】

一、基本数据类型——元组　元组：是一种与列表非常相似的数据类型。但是它一旦创建便不能再修改，所以又叫只读列表。　　定义：与列表类似，只不过［］改成（）特性：可存放多个值（可以存放复杂数据类型）不可变（显式地告诉别人此处数据不可修改，常用于数据库连接配置信息等）按照从左到右的顺序定义元组元素，下标从0开始顺序访问，有序元组本身不可变，如果元组中还包含其它可变元素，这些可变元素可以改变。（比如列表等...

黑马基础阶段测试题：创建一个存储字符串的集合list，向list中添加以下字符串：”C++”、”Java”、” Python”、”大数据与云计算”。遍历集合，将长度小于5的字符串从集合中删除，删除成功后，打印集合中的所有元素【代码】【图】

package com.swift;import java.util.ArrayList; import java.util.List; import java.util.ListIterator;publicclass Collections {publicstaticvoid main(String[] args) {/** 完成以下需求：*创建一个存储字符串的集合list，向list中添加以下字符串：”C++”、”Java”、” Python”、”大数据与云计算”。*遍历集合，将长度小于5的字符串从集合中删除。*删除成功后，打印集合中的所有元素。*PS：控制台打印示例*/List<String> ...

Python学习第三天之字符串编码解码，集合，文件，函数【图】

1数据类型——集合初始化　　　　　　list = [ 1, 2,3,4,5 ]　　　　　　set1 = set ( list )集合的逻辑关系　　　　求交集： set3 = set1.intersection(set2) 或者 set3 = set1 & set2　　　　求并集：set1.union(set2) 或者 set1 | set2　　　　求差集：set6 = set1.difference(set2) 或者 set6 = set1 - set2　　　　　　　　set5 = set2.difference(set1) 或者 set5 = set2 - set1　　　　求对称差集： set5 + set6 ...

首页 / PYTHON / python-一种对集合进行分区以从子集中获取最小方差总和的策略

python-一种对集合进行分区以从子集中获取最小方差总和的策略

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-一种对集合进行分区以从子集中获取最小方差总和的策略】教程文章相关的互联网学习教程文章

python知识点及面试面试大集合

python 基础---集合【代码】

python深浅拷贝，集合以及数据类型的补充【代码】

python之set集合、深浅拷贝【代码】

Python 字符串，列表，字典，集合的常用方法【代码】

python--集合【代码】

matlab中怎样删除重复元素使得和Python中集合set的功能一样【代码】

python(四）切片，内置函数，集合，json操作【代码】

09-Python-集合【代码】

python -- 结构数据类型（列表、元组、集合、字典）【代码】

python set 集合【代码】

Python顺序集合之 tuple【代码】

python学习04－数据类型(元组、字典、集合)【代码】

Python学习第三天之字符串编码解码，集合，文件，函数【图】

PYTHON - 相关标签

集合 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程