【发布时间】:2011-06-05 17:25:02
【问题描述】:
我是 NLP(自然语言处理)的新成员。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个相似句子的系统)。对于那个识别器,我将应用各种在三个级别进行度量,即词汇,语法,语义。在词汇级别,有多种相似性度量,例如余弦相似度,匹配系数,jaccard 系数...等。对于这些度量,我使用的是大学开发的 simMetrics 包sheffield..它是用于不同相似性度量的绝妙包。它包含许多相似性度量。但是对于 levenshtein 距离和 jaro-winkler 距离度量,代码仅在 *字符级别*。我需要代码在句子级别(即考虑单个单词而不是字符)。SimMetrics 中也没有曼哈顿距离的代码......我请求专家给我一个建议来开发所需的代码(或)给我提供代码在上面的句子级别提到的措施。
非常感谢您花时间和精力帮助我。
【问题讨论】:
-
这是一个不平凡的问题。我怀疑你会在这个领域找到很多专业知识或现有技术。
-
如果你是 NLP 的新手,我真的认为你应该尝试一个更小、更有界的项目
-
请注意,“JNLP”与“NLP”无关。删除标签。
标签: nlp data-mining text-mining stanford-nlp