【问题标题】:Machine Learning text comparison model机器学习文本比较模型
【发布时间】:2018-05-12 15:53:48
【问题描述】:

我正在创建一个机器学习模型,该模型基本上将一个文本的正确性返回给另一个文本。 例如; “猫和狗”,“狗和猫”。该模型需要能够识别某些词(“cat”/“dog”)比其他词(“a”/“the”)更重要/重要。我对连词等不感兴趣。我希望能够告诉模型哪些词最“重要”,并让它确定文本 1 对文本 2 的正确程度,用“重要的”词比其他词更重要。

它还需要能够识别短语不一定必须以相同的顺序排列。上面两句应该是非常匹配的。

我应该使用什么基本算法来解决这个问题?除了创建一个包含数千个示例文本和正确分数的数据集之外,还有其他选择吗?

我只是在广泛的概述/流程图/流程/算法之后。

【问题讨论】:

    标签: tensorflow machine-learning text nlp artificial-intelligence


    【解决方案1】:

    我认为TF-IDF 可能很适合您的问题,因为:

    1. 对出现在许多文档中的单词(例如,90% 的句子/文档包含连词“and”)的强调要小得多,本质上更侧重于文档特定的短语(这是 IDF 部分)。
    2. 与使用滑动窗口等的方法相反,按词频 (TF) 排序并不重要。
    3. 与上述面向表示的方法相比,它非常轻量级。

    大缺点:根据语料库的大小,您的数据可能有太多维度(与唯一词相同的维度数),您可以使用词干提取/词形还原来缓解这种情况某种程度上的问题。

    例如,您可以使用余弦相似度来计算两个 TF-IDF 向量之间的相似度。

    编辑:糟糕,这个问题已经 8 个月了,很抱歉这个问题,也许它对其他人有用。

    【讨论】:

    • 没问题!我最终意识到文本比较不足以完成我的任务。感谢您的全面回答
    猜你喜欢
    • 2013-08-28
    • 1970-01-01
    • 2016-10-27
    • 1970-01-01
    • 2022-12-10
    • 1970-01-01
    • 1970-01-01
    • 2020-06-19
    • 2021-02-20
    相关资源
    最近更新 更多