【发布时间】:2022-01-08 08:30:33
【问题描述】:
我希望计算成对文档之间的相似度。具体来说,我有电影续集及其原片的情节,想看看续集的情节与原片有多么相似。我的数据由一个数据框中的 600 部电影续集组成,电影 ID、电影名称、特许经营 ID、续集编号、原版情节和续集情节在三个不同的列中。本质上,我想比较最后两列的文本并获得分数。
大家有什么建议吗?
【问题讨论】:
-
似乎过于宽泛且相当模糊。你如何表示情节?两个情节相似是什么意思?看起来更像是一个人工智能问题,而不是你可以获得现成数字分数的问题。无论如何,博文Using cosine similarity to build a movie recommendation system 可能会给你一些想法。
-
绘图为文本形式。我只是想将续集的文字与原片的对应文字进行比较。
标签: python r similarity