【发布时间】:2017-11-07 15:10:19
【问题描述】:
假设我有两个(巨大的)文件。一个包含单词列表。另一个包含一个单词列表,后面跟着一些数字;即,格式是这样的:
文件 1:
word1
word2
...
文件 2:
word1 n1 n2 n3 n4 n5.....n500
word2 n1 n2 n4 n5 .... n500
...
使用 Python 3,重叠文件并从文件 2 中仅提取包含文件 1 中也出现的单词的行的最有效方法是什么?为文件 2 创建一个字典,然后检查它并使用文件 1 中的单词检查成员资格非常慢。
【问题讨论】:
-
您是否尝试过相反的方法?从 file1 的单词创建字典,然后遍历 file2?
-
你说的“很慢”是指操作需要很长时间,还是你的机器变慢了?
-
我确实尝试从文件 1 创建字典并遍历文件 2。仍然很慢。慢,我的意思是操作需要很长时间。
标签: python