用于多句子文本相似度的通用句子编码器

【问题标题】：Universal sentence encoder for multi sentence text similarity用于多句子文本相似度的通用句子编码器
【发布时间】：2021-05-23 08:02:28
【问题描述】：

我正在使用通用句子编码器计算 2 个文本之间的相似度

我的问题是在句子级别嵌入文本（产生的向量数等于句子数）然后平均分数而不是仅仅为每个文本创建一个向量是正确的方法吗？

【问题讨论】：

【解决方案1】：

与往常一样，这取决于您的数据集。您可以尝试两种方式，看看哪一种方式给出了对您的用例有用的分数。总的来说，我发现一次将整个文本输入到 USE 最多 100 个单词的文本就可以了，甚至更好。不需要断句再平均。

【讨论】：