【发布时间】:2022-12-08 08:56:57
【问题描述】:
我正在使用 GPT-3 进行一些实验,在这些实验中,我通过认知科学的测试来提示语言模型。测试具有短文本 sn-ps 的形式。现在我想检查 GPT-3 在训练期间是否已经遇到这些文本 sn-ps。因此我的问题是:有什么方法可以筛选 GPT-3 的训练文本语料库吗?能否找出某个字符串是否是这些文本语料库的一部分?
谢谢你的帮助!
【问题讨论】:
标签: nlp training-data gpt-3
我正在使用 GPT-3 进行一些实验,在这些实验中,我通过认知科学的测试来提示语言模型。测试具有短文本 sn-ps 的形式。现在我想检查 GPT-3 在训练期间是否已经遇到这些文本 sn-ps。因此我的问题是:有什么方法可以筛选 GPT-3 的训练文本语料库吗?能否找出某个字符串是否是这些文本语料库的一部分?
谢谢你的帮助!
【问题讨论】:
标签: nlp training-data gpt-3
不幸的是,我认为这是不可能的。 GPT-3 的训练语料库是私有的。
但如果那是可能的,那将对检测剽窃很有帮助。也许问它是否知道某行文本的来源?
【讨论】: