【发布时间】:2014-09-22 15:21:48
【问题描述】:
使用 python,从给定字符串中提取常用短语或单词的最有效方法是什么?
例如,
string1="once upon a time there was a very large giant called Jack"
string2="a very long time ago was a very brave young man called Jack"
会返回:
["a","time","there","was a very","called Jack"]
如何有效地做到这一点(在我的情况下,我需要在数千个 1000 字的文档中做到这一点)?
【问题讨论】:
-
我认为这里不需要正则表达式。
-
效率会因开发人员而异,具体取决于您询问的对象。但是在您的情况下,我会说在列表中混合使用单个单词和短语并不是很有效。也许将每个单词存储到数据库中(或创建自己的数据类型)并跟踪之前和之后出现的每个单词......这对你来说可能非常有效,也可能不是。