【发布时间】:2012-12-14 18:30:21
【问题描述】:
假设我有一个允许的单词/短语列表:
'Stack'
'Overflow'
'Stack Overflow'
'Stack Exchange'
'Exchange'
以及以下要解析的文本:
'Hello, and welcome to Stack Overflow.
Here are some words which should match: Stack, Exchange.'
我想获取在允许列表中找到的单词列表:
- '堆栈溢出'
- '堆栈'
- '交换'
实现结果的最佳方法是什么?
我将使用的允许列表可能至少有一千个单词/短语。
【问题讨论】:
-
似乎这个来自另一个问题的答案有一些有趣的指针:stackoverflow.com/a/3261300/89391
-
你知道一个短语中最多的单词数是多少吗?
-
谢谢大家。我将尝试可能的解决方案,尽管在 Python 中重新实现 grep 听起来有点令人生畏。 @SamMussmann 如果您所说的短语是指列表中的单词/短语,那么它们最多为 4 个单词,大多数为 1-2 个单词。