【发布时间】:2015-04-08 17:53:50
【问题描述】:
我有一个很久以前制作的 500 MB 文本文件。它具有看起来像 html 或 xml 的标签,但它们在整个文件中并不一致。我正在尝试查找两个不匹配的标签之间的信息。我目前使用的工作但很慢:myDict 中有一个关键字列表。我只能保证 X+key 和 /N 存在。没有其他一致的标签。字典有 18000 个键。
for key in myDict:
start_position = 0
start_position = the_whole_file.find('<X>'+key, start_position)
end_position = the_whole_file.find('</N>', start_position)
date = the_whole_file[start_position:end_position]
有没有办法更快地做到这一点?
【问题讨论】:
-
嗯什么?所以你在寻找
<x>some_key some_data_you_might_want_if_key_in_dict</n>? 500MB 并不是那么大...