【发布时间】:2013-07-09 20:11:43
【问题描述】:
现在我正在编写一些 python 代码,需要进行类似于以下的列表比较:
small_list = ["string"]*3
big_list = ["string"]*600000
big_list_excludes = ["string"]*600000
final_lines = []
for small in small_list:
final_lines = [line for line in big_list if small in big_list]
for exclude in big_list_excludes:
final_lines = [line for line in final_lines if exclude not in final_lines]
到目前为止,列表还不是很大。执行已被分秒。但是,big_list 现在可以包含大约 60,000 个条目,“big_list_excludes”也可以。有谁知道缩短上述内容的方法,以便更快?另外 - 除了可以加快执行速度的列表之外,有没有人知道我可以使用的不同数据类型?我确实需要添加到这些列表中,但我不需要更改顺序。
另外,我希望这些列表比较不区分大小写。以前我通过执行以下操作来完成此操作:
for small in small_list:
for line in big_list:
if small.upper() in line.upper():
final_lines.append(line)
我相当肯定这会大大降低速度。如果有人知道如何更有效地做到这一点,那也会有所帮助。
【问题讨论】:
-
列表中的所有项目都是唯一的吗?如果是这样,您可以使用集合,因为您正在寻找的是交叉点和差异。
-
理论上它们应该是唯一的......但是没有真正的保证。有重复是可能的。
-
是否需要保留重复项?或者,“abc”仅存在于
small_list和big_list中是否足够?从具有重复项的列表中创建一个集合只会删除多余的重复项。 -
我明白你在说什么。不,它们不需要保存。集合操作比列表操作快多少?
-
不确定,但他们应该更快更快地测试会员资格,这正是你正在做的。
标签: python string list comparison tuples