【问题标题】:Bert fine-tuned for semantic similarityBert 针对语义相似性进行了微调
【发布时间】:2020-03-29 01:12:01
【问题描述】:

我想应用微调 Bert 来计算句子之间的语义相似度。 我搜索了很多网站,但我几乎没有在下游找到这个。

我刚刚找到 STS 基准测试。 我想知道是否可以使用 STS 基准数据集来训练微调的 bert 模型,并将其应用于我的任务。 合理吗?

据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关度、曼哈顿距离等。 语义相似度如何选择?

【问题讨论】:

标签: nlp cosine-similarity pearson-correlation sentence-similarity


【解决方案1】:

此外,如果您要进行二元判断(是/否表示“语义相似”),BERT 实际上已使用 MRPC(Microsoft Research Paraphrase Corpus)在此任务上进行了基准测试。 google github repo https://github.com/google-research/bert 包含一些示例调用,请参阅句子(和句子对)分类任务部分中的 --task_name=MRPC。

【讨论】:

  • HuggingFace 在 MRPC 上有示例和微调的 BERT - github.com/huggingface/transformers/tree/master/examples
  • 感谢您的建议。我知道,但我的任务不是二元的。我的任务是我有 100,00 个问题和 300 个不同项目的描述。我想为每个问题匹配一个项目。
【解决方案2】:

作为前面的一般评论,我想强调这种问题可能不会被视为 Stackoverflow 上的主题,请参阅How to ask。但是,有一些相关网站可能更适合这类问题(无代码,理论 PoV),即 AI StackexchangeCross Validated

如果您查看 Mueller 和 Thyagarajan 的 rather popular paper in the field,它关注在 LSTM 上学习句子相似性,他们使用密切相关的数据集(SICK dataset),该数据集也由 SemEval 竞赛主办,并运行与 2014 年的 STS 基准测试并驾齐驱。

其中任何一个都应该是可以微调的合理设置,但 STS 已经运行多年,因此可用的训练数据量可能会更大。

作为该主题的入门读物,我还强烈推荐 Adrien Sieg 的 Medium 文章(请参阅 here,随附 GitHub 参考。

对于语义相似度,我估计你最好微调(或训练)神经网络,因为你提到的大多数经典相似度度量都更突出地关注标记相似度(因此,句法相似度,尽管不一定如此)。另一方面,语义有时可能在一个词上大相径庭(可能是否定词,或者两个词的句子位置互换),这很难用静态方法解释或评估。

【讨论】:

  • 感谢您的帮助。我不熟悉这个平台。我会再次检查“询问”规则。
  • 我的错误,格式在这里赶上了我。我会尽快扩展格式
  • 查看这个数据集论文,一个针对语义相似性优化的 Bert arxiv.org/abs/2004.10349
猜你喜欢
  • 2020-07-14
  • 1970-01-01
  • 2021-02-19
  • 2020-09-25
  • 2020-06-10
  • 1970-01-01
  • 2019-09-01
  • 2019-09-22
  • 2020-05-26
相关资源
最近更新 更多