【发布时间】:2011-04-03 12:45:11
【问题描述】:
我需要分析文本中存在的禁用词。假设黑名单是单词:“禁止”。这个词有多种形式。在文本中,单词可以是,例如:“forbidding”、“forbidden”、“forbad”。为了将这个词带入初始形式,我使用了过程词形还原。你的建议?
错别字怎么办?
例如:“F0rb1d”。我认为使用 damerau–Levenshtein 或其他。你有什么建议?
如果文字是这样写的呢:
“禁止信息。公司的私人通信。”或者
“F0rb1dden1nformation.Privatecorresp0ndenceofthec0mpany。” (是的,没有空格)
如何解决这个问题?
最好是快速算法,因为文本是实时处理的。
也许有什么提高性能的技巧(如何存储等)?
【问题讨论】:
标签: c# nlp similarity lemmatization