机器学习文本比较模型答案

【问题标题】：Machine Learning text comparison model机器学习文本比较模型
【发布时间】：2018-05-12 15:53:48
【问题描述】：

我正在创建一个机器学习模型，该模型基本上将一个文本的正确性返回给另一个文本。例如; “猫和狗”，“狗和猫”。该模型需要能够识别某些词（“cat”/“dog”）比其他词（“a”/“the”）更重要/重要。我对连词等不感兴趣。我希望能够告诉模型哪些词最“重要”，并让它确定文本 1 对文本 2 的正确程度，用“重要的”词比其他词更重要。

它还需要能够识别短语不一定必须以相同的顺序排列。上面两句应该是非常匹配的。

我应该使用什么基本算法来解决这个问题？除了创建一个包含数千个示例文本和正确分数的数据集之外，还有其他选择吗？

我只是在广泛的概述/流程图/流程/算法之后。

【问题讨论】：

标签： tensorflow machine-learning text nlp artificial-intelligence

【解决方案1】：

我认为TF-IDF 可能很适合您的问题，因为：

对出现在许多文档中的单词（例如，90% 的句子/文档包含连词“and”）的强调要小得多，本质上更侧重于文档特定的短语（这是 IDF 部分）。
与使用滑动窗口等的方法相反，按词频 (TF) 排序并不重要。
与上述面向表示的方法相比，它非常轻量级。

大缺点：根据语料库的大小，您的数据可能有太多维度（与唯一词相同的维度数），您可以使用词干提取/词形还原来缓解这种情况某种程度上的问题。

例如，您可以使用余弦相似度来计算两个 TF-IDF 向量之间的相似度。

编辑：糟糕，这个问题已经 8 个月了，很抱歉这个问题，也许它对其他人有用。

【讨论】：

没问题！我最终意识到文本比较不足以完成我的任务。感谢您的全面回答