【发布时间】:2011-09-06 16:26:31
【问题描述】:
我有一个巨大的文本和一个大约 10K 的单词列表。 在 Python 中用其他单词替换所有这些单词的最快方法是什么?
编辑: 文本大小 >1Gb,文本是人工编写的,并且“高度标记化”(任何字母数字字符和任何其他单个符号都被拆分为新标记)
词数>10K,文本中每个词频为1 替换词在所有替换中都是相同的。 Python 2.5-2.7
【问题讨论】:
-
您的意思是列表中有 10000 个单词还是您的文本大小为 10000 个字节?单词列表和文本哪个更大?
-
文字大小>1Gb,字数>10K。
-
什么版本的python?每个搜索词是否对应一个替换词,或者您是否将所有搜索词替换为相同的替换词?一开始的文本有多“常规”?空格分隔、标点符号、变量?
-
文本是人工编写的,并且“高度标记化”(任何字母数字字符和任何其他单个符号都被拆分为新标记);文本中的每个词频为 1,替换词在所有替换中都相同。 Python 2.5-2.7