【发布时间】:2021-06-30 12:00:23
【问题描述】:
我有一个有趣的问题:
我有一个相当大的文本段落,我想检查该段落是否包含某些短语。现在,不允许直接匹配,因为我想知道该段落是否包含短语或类似短语,例如如果我有一份隐私政策文档,并且我想检查该文档是否提到任何有关“跟踪 cookie”的内容,我将如何处理?
我是用 Python 做的。
【问题讨论】:
标签: python text nlp data-science textmatching
我有一个有趣的问题:
我有一个相当大的文本段落,我想检查该段落是否包含某些短语。现在,不允许直接匹配,因为我想知道该段落是否包含短语或类似短语,例如如果我有一份隐私政策文档,并且我想检查该文档是否提到任何有关“跟踪 cookie”的内容,我将如何处理?
我是用 Python 做的。
【问题讨论】:
标签: python text nlp data-science textmatching
您可以构建一个正则表达式来捕获字符串“跟踪 cookie”的多个变体。例如,一个正则表达式捕获:
tracking cookies
cookie trackers
Cookies
cookie
tracker cookie
Tracking Cookies
.
.
.
etc.
然后,每次遇到字符串的新变体时,都可以将其添加到正则表达式中。
【讨论】: