【发布时间】:2019-08-28 20:47:31
【问题描述】:
假设有两个文件 A 和 B,A 是一个大小超过 1GB 的巨大数据文件(在文本中,数据没有内部统一的数据结构)。 B 是一个文件,它可能包含来自 A 的一小部分数据,并且大小低于 1KB。我需要一个算法来衡量 B 有多少数据也可以在 A 中找到。B 包含的数据来自 A 的越多,这个算法应该返回的分数越高。
谢谢。
【问题讨论】:
标签: nlp text-mining
假设有两个文件 A 和 B,A 是一个大小超过 1GB 的巨大数据文件(在文本中,数据没有内部统一的数据结构)。 B 是一个文件,它可能包含来自 A 的一小部分数据,并且大小低于 1KB。我需要一个算法来衡量 B 有多少数据也可以在 A 中找到。B 包含的数据来自 A 的越多,这个算法应该返回的分数越高。
谢谢。
【问题讨论】:
标签: nlp text-mining
你可以做这样的事情......
def readA():
with open('A.txt') as bondNumberFile:
for line in bondNumberFile:
readB(line.rstrip())
此外,您不一定需要定义函数来执行此操作。也可以执行以下操作。
with open('a.txt') as a, open('b.txt') as b:
result = set(a.readlines()) & set(b.readlines())
您可能会发现this SO post 很有用。 干杯!
【讨论】: