首页 / PYTHON / Python在迭代时从列表中删除

Python在迭代时从列表中删除

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python在迭代时从列表中删除，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3359字，纯文字阅读大概需要5分钟。

内容图文

我有一个字符串列表,我只想保留最独特的字符串.这是我的实现方式(循环可能有问题),

def filter_descriptions(descriptions):
    MAX_SIMILAR_ALLOWED = 0.6  #40% unique and 60% similar
    i = 0
    while i < len(descriptions):
        print("Processing {}/{}...".format(i + 1, len(descriptions)))
        desc_to_evaluate = descriptions[i]
        j = i + 1
        while j < len(descriptions):
            similarity_ratio = SequenceMatcher(None, desc_to_evaluate, descriptions[j]).ratio()
            if similarity_ratio > MAX_SIMILAR_ALLOWED:
                del descriptions[j]
            j += 1
        i += 1
    return descriptions

请注意,列表可能包含约11万个项目,这就是为什么我每次迭代都会缩短列表.

任何人都可以找出当前实施的问题吗？

编辑1：

当前结果“太相似”. filter_descriptions函数返回了16个项目(约11万个项目).当我尝试以下内容时,

SequenceMatcher(None, descriptions[0], descriptions[1]).ratio()

该比率为0.99,使用SequenceMatcher(None,descriptions [1],descriptions [2]).ratio()约为0.98.但是使用SequenceMatcher(None,descriptions [0],descriptions [15]).ratio()大约为0.65(更好)

我希望这有帮助.

解决方法:

如果您颠倒了逻辑,则可以不必修改列表,而仍然可以减少所需的比较次数.也就是说,从一个空的输出/唯一列表开始,遍历您的描述,看看是否可以添加每个列表.因此,对于第一个描述,您可以立即添加它,因为它不能与空白列表中的任何内容相似.与所有其他描述相反,仅需要将第二个描述与第一个描述进行比较.以后的迭代一旦找到与之相似的先前描述,就会使其短路(并丢弃候选描述).即.

import operator

def unique(items, compare=operator.eq):
    # compare is a function that returns True if its two arguments are deemed similar to 
    # each other and False otherwise.

    unique_items = []
    for item in items:
        if not any(compare(item, uniq) for uniq in unique_items):
            # any will stop as soon as compare(item, uniq) returns True
            # you could also use `if all(not compare(item, uniq) ...` if you prefer
            unique_items.append(item)

    return unique_items

例子：

assert unique([2,3,4,5,1,2,3,3,2,1]) == [2, 3, 4, 5, 1]
# note that order is preserved

assert unique([1, 2, 0, 3, 4, 5], compare=(lambda x, y: abs(x - y) <= 1))) == [1, 3, 5]
# using a custom comparison function we can exclude items that are too similar to previous
# items. Here 2 and 0 are excluded because they are too close to 1 which was accepted
# as unique first. Change the order of 3 and 4, and then 5 would also be excluded.

使用您的代码,您的比较函数将如下所示：

MAX_SIMILAR_ALLOWED = 0.6  #40% unique and 60% similar

def description_cmp(candidate_desc, unique_desc):
    # use unique_desc as first arg as this keeps the argument order the same as with your filter 
    # function where the first description is the one that is retained if the two descriptions 
    # are deemed to be too similar
    similarity_ratio = SequenceMatcher(None, unique_desc, candidate_desc).ratio()
    return similarity_ratio > MAX_SIMILAR_ALLOWED

def filter_descriptions(descriptions):
    # This would be the new definition of your filter_descriptions function
    return unique(descriptions, compare=descriptions_cmp)

比较次数应完全相同.也就是说,在您的实现中,第一个元素与所有其他元素进行比较,第二个元素仅与被认为与第一个元素不相似的元素进行比较,依此类推.在此实现中,最初不会将第一个项目与任何项目进行比较,但是必须将所有其他项目与它进行比较才能允许将其添加到唯一列表中.仅将被认为与第一项不相似的项与第二唯一项进行比较,依此类推.

唯一实现将减少复制,因为仅在后备阵列空间不足时才需要复制唯一列表.而使用del语句时,每次使用时都必须复制列表的一部分(将所有后续项移动到新的正确位置).但是,这可能对性能的影响可以忽略不计,因为瓶颈可能是序列匹配器中的比率计算.

内容总结

以上是互联网集市为您收集整理的Python在迭代时从列表中删除全部内容，希望文章能够帮你解决Python在迭代时从列表中删除所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/693042.html

来源：【匿名】

【上一篇】python-用字典值覆盖pandas DataFrame列,其中字典键与非索引列匹配？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python在迭代时从列表中删除】教程文章相关的互联网学习教程文章

Python生成器、迭代器、装饰器【代码】

Python迭代器迭代器是访问集合内元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有的元素都被访问一遍后结束。迭代器不能回退，只能往前进行迭代。这并不是什么很大的缺点，因为人们几乎不需要在迭代途中进行回退操作。常用的迭代方法有.next()方法for..in..方法迭代器通俗的理解就是遍历集合内的所有元素 python生成器这里先说简单的使用，然后再说自己创建生成器range：生成一个listrange(1,5)结果为：[1,2,3,4]x...

Python之容器、迭代器、生成器【代码】【图】

1.容器、可迭代对象、迭代器、生成器概念1. 容器:存储许多元素的数据结构。通常存储在内存（迭代器、生成器是特例）可以使用in来判断某个元素是否在存在的对象都是容器举个例子：容器就像一个箱子，里面可以存放许多东西，我可以往这个箱子存取东西，可以判断这个箱子是否有某样东西2.可迭代对象：可以使用iter()变成迭代器的对象都是可迭代对象,大部分容器都是可迭代对象(str,set,list,tuple,打开状态的files，sockets等等）3.迭代...

python中的迭代器和生成器【图】

在我们学习迭代器和生成器之前的时候,我们要先搞清楚几个概念:「迭代协议:」有__next__方法会前进道下一个结果,而且在一系列结果的末尾时,会引发StopIteration异常的对象.「可迭代对象:」实现了__iter__方法的对象「迭代器:」实现了__iter__和__next__方法的对象「生成器:」通过生成器表达式或者yeild关键字实现的函数.这里不太好理解,我们借用一个图可迭代对象需要注意的是可迭代对象不一定是迭代器.比如列表类型和字符串类型...

python中迭代器和生成器的区别【代码】

1#!/usr/bin/python 2def power(values):3for value in values:4print"powing %s" % value5yield value6def add(values):7for value in values:8if value % 2 == 0:9yield value + 3 10else: 11yield value + 2 12 elements = [1, 4, 7, 9, 12, 19] 13add(power(elements)) 14for i in add(power(elements)): 15print(i)首先来看上面一段代码运行结果:powing 13powing 47powing 79powing 911powing 1215powing 1921power这时已经不...

python 迭代器与可迭代对象【代码】

迭代器一定是可迭代对象，但是可迭代对象不一定是迭代器。 list，truple，str这些都是可迭代对象，但是他们不一定是迭代器。迭代器本身不知道自己要执行多少次，所以可以理解为不知道有多少个元素，每调用一次next()，就会往下走一步，是惰性的。迭代器提供了一种不依赖索引取值的方式，这样可以遍历没有索引的可迭代对象，比如字典、集合、文件等等，加载这一个元素至内存中随后释放，相比之下更节省内存，但是我们没有办法获取迭...

python生成器及迭代器【代码】

一.迭代器迭代器是访问集合元素的一种方式迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法：iter() 和 next()字符串，列表或元组对象都可用于创建迭代器特点：访问者不需要关心迭代器内部的结构，仅需通过next()方法不断去取下一个内容不能随机访问集合中的某个值，只能从头到尾依次访问访问到一半时不能往回退便于循...

Python--生成器与迭代器【代码】

生成器（generator）在看生成器之前我们先来看一下列表生成式。如果我们想得到一个12,22,32…… 102组成的列表，我们可以考虑下面的做法：1 a=[x*x for x in range(1,11)] 2 print(a)输出：——————————[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]——————————这是Python的简洁的体现之一，我们可以用这种方式快速得到一个列表。其实他还有很多玩法：1import pprint 2 a=[(x,y )for x in range(3) for y in"abc"] 3pp...

Python笔记十一（迭代器）【图】

这里我们要学会Iterable和Iterator.一类是集合数据类型，如list、tuple、dict、set、str等；一类是generator，包括生成器和带yield的generator function以上两类都可以作用于for循环，都是可迭代对象（Iterable）. 可以被next()函数不断调用并返回一个值的对象我们成为迭代器，Iterator。原文：http://www.cnblogs.com/nadech/p/8046578.html

python学习8-闭包、迭代器（转载）【代码】

一、第一类对象：函数名是一个变量，可以当普通变量使用，但它又是一个特殊的变量，与括号配合可以执行函数。函数名的运用1、单独打印是一个内存地址2、可以给其他变量赋值3、可以作为容器类变量的元素4、可以作为函数的参数5、可以作为函数的返回值二、闭包如果一个内层函数有对外层函数变量的引用，那么就称为这个内层函数为闭包函数，也叫闭包那么，如何检查一个函数是不是闭包函数呢？　　用__closure__()方法可以检查函数是否...

python迭代器，生成器，装饰器【代码】

1.1迭代器什么是迭代器：迭代器是一个可以记住遍历的位置对象迭代器对象从集合的第一个元素元素开始访问，直到所有元素被访问完结束，迭代器只能往前不会后退。迭代器有两个基本方法:iter ,next 方法内置函数iter(),next() 本质上都是用的对象.__iter__(),__next__()的方法内置函数 iter(iterable)，表示把可迭代对象变成迭代器(iterator)内置函数next(iterator) ,表示查看下一次迭代的值(当然也可以用 iterator.__next__() ,查看...

Python 函數與常用模組 - 迭代器【代码】

迭代器我們已經知道可以直接作用於 for 循環的數據類型有以下幾種：一類是集合數據類型： list 、 tuple 、 dict 、 set 、 str 、 bytes 等。另一類是 generator ，包括生成器和帶 yield 的 generator function。這些可以直接作用於 for 循環的對象，統稱為可迭代的對象( Iterable )：可迭代的對象，可以把它想成就是可以循環的對象，可迭代 = 可循環可以使用 isinstance() 判斷一個對象是否為 Iterable 對象：#!/usr/bin/env p...

Python--核心2(生成器,迭代器,闭包,装饰器)之生成器【代码】

一、生成器　　1.概念　　　　在Python中，一边循环一边计算的机制，称为生成器： generator 　　　　创建生成器: G = ( x*2 for x in range(5)) 　　　　可以通过 next(生成器) 函数获得生成器的下一个返回值　　　　没有更多的元素时，抛出 StopIteration 的异常　　　　生成器也可以使for 循环，因为生成器也是可迭代对象　　2.生成器1 生成的第一种方式　list2 = [x for x in rang(10)] print(type(list2)) #得到一个生成...

python 第五章迭代器，生成器，生成器函数【代码】

迭代器迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退，不过这也没什么，因为人们很少在迭代途中往后退。另外，迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素。迭代器仅仅在迭代到某个元素时才计算该元素，而在这之前或之后，元素可以不存在或者被销毁。这个特点使得它特别适合用于遍历一些巨大的或是无限的集合，比如几个G的文件特点...

Python学习笔记：迭代器（Iterator）详解【代码】

一、可迭代的对象（Iterable） 1、定义：可以直接用在循环的数据类型，如list,tuple,dict,set,str，还有generator（生成器），和带yield的函数，这些直接可以用在循环的对象统称为可迭代对象(Iterable)from collections import Iterable print(isinstance([], Iterable)) print(isinstance((), Iterable)) print(isinstance({}, Iterable)) print(isinstance("abc", Iterable)) print(isinstance((x for x in range(1...

Python迭代器

我们之前一直在用可迭代对象进行操作,那么到底什么是可迭代对象.我们现在就来讨论讨论可迭代对象.首先我们先回顾下我们熟知的可迭代对象有哪些:str list tuple dic set 那为什么我们称他们为可迭代对象呢?因为他们都遵循了可迭代协议,那什么又是可迭代协议呢.首先我们先看一段错误的代码:原文：https://www.cnblogs.com/yanranran/p/10256718.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python在迭代时从列表中删除

Python在迭代时从列表中删除

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python在迭代时从列表中删除】教程文章相关的互联网学习教程文章

Python生成器、迭代器、装饰器【代码】

Python之容器、迭代器、生成器【代码】【图】

python中的迭代器和生成器【图】

python中迭代器和生成器的区别【代码】

python 迭代器与可迭代对象【代码】

python生成器及迭代器【代码】

Python--生成器与迭代器【代码】

Python笔记十一（迭代器）【图】

python学习8-闭包、迭代器（转载）【代码】

python迭代器，生成器，装饰器【代码】

Python 函數與常用模組 - 迭代器【代码】

Python--核心2(生成器,迭代器,闭包,装饰器)之生成器【代码】

python 第五章迭代器，生成器，生成器函数【代码】

Python学习笔记：迭代器（Iterator）详解【代码】

Python迭代器

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程