【发布时间】:2020-10-29 15:19:41
【问题描述】:
我正在尝试应用BERT 句子嵌入来从瑞典语文本字符串的语料库中找到给定瑞典语文本片段的相似句子。
来自 sentence_transformers (SBERT) 的句子 BERT 似乎是理想的选择。他们有各种预训练模型,并给出了很好的例子:
(https://github.com/UKPLab/sentence-transformers)
from sentence_transformers import SentenceTransformer, util
import torch
embedder = SentenceTransformer('distilbert-base-nli-stsb-mean-tokens')
sentences = ['This framework generates embeddings for each input sentence',
'Sentences are passed as a list of string.',
'The quick brown fox jumps over the lazy dog.']
sentence_embeddings = model.encode(sentences)
然而,他们对非英语句子转换器的选择似乎有限。我想知道在提取句子嵌入方面应用专门针对瑞典文本或任何其他非英语语言训练的 Hugging Face 库中的 BERT 模型是否可能并且可能更准确?专门针对一种语言训练的 BERT 模型不会为该语言产生更准确的句子嵌入吗?最后,所有模型都使用它们各自的语言对相同的任务 MLM 和 NSP 进行了预训练,以理解该语言,对吗?
有什么想法或经验吗?
最终目标是在句子嵌入上使用余弦相似度来对相似的句子/段落进行排名
【问题讨论】:
标签: python nlp cosine-similarity bert-language-model sentence-similarity