【问题标题】:How to find out similarity degree of the two sentences?如何找出两个句子的相似度?
【发布时间】:2016-07-28 07:14:21
【问题描述】:

我想在Airbnb分析房客的评论文字和房东的评论文字。

我有一些文本数据(客人和主人)。

例如)

  guest1 review with host1 comment
  guest2 review with host1 comment
  guest3 review with host2 comment
  guest2 review with host2 comment
  guest4 review with host3 comment

然后,我想看看每一对段落的相似性或一致性。

是否需要提取每个句子中的主题词?

哪种文本挖掘算法可以帮到我?

LDA 可以显示每个段落的主题吗? (不适用于全文数据)

【问题讨论】:

  • 欢迎来到 Stack Overflow!欢迎来到堆栈溢出!我尽可能地编辑了你的问题。但是,通过在 google 或其他网站中搜索添加您尝试和获得的任何内容,以便更多了解该主题的人看到它。如果您卡在任何地方,请在您遇到的特定错误消息中进行编辑,以防有必要识别特定问题。祝你好运!

标签: text-mining


【解决方案1】:

有很多方法。尝试将句子转换为 K-Shingle:http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html 或在维基百科中查看:https://en.wikipedia.org/wiki/W-shingling ,你可以找到两句带状疱疹之间的jaccard相似度


还可以查看将每个句子映射到一个向量的 Bag Of Words Model,您可以通过每个匹配词的点积轻松地确定两个向量(两个句子)之间的相似性:https://en.wikipedia.org/wiki/Bag-of-words_model

【讨论】:

    猜你喜欢
    • 2016-12-14
    • 2015-01-23
    • 1970-01-01
    • 2020-04-21
    • 2017-04-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-09
    相关资源
    最近更新 更多