用于参考分类的 NLP答案

【问题标题】：NLP for Reference Classification用于参考分类的 NLP
【发布时间】：2021-07-27 08:18:50
【问题描述】：

我需要解析几个技术文本文档以找到每个引用实例。

使用正则表达式，我可以轻松地提取出所有提及的参考文献，因为我们所有的文档都遵循命名标准。

例如：ABC0001、AB-000-001、AB-00001等

我面临的问题是，一个文本通常不会只是引用另一个文档，而是会说它正在被另一个文档引用。

例如，这里有 2 个可能的句子：

有关详细信息，请参阅 AB-000-001。

或

本文档被 AB-00001 用作参考。

由于这些句子不一定遵循某种模式，我想使用一个简单的文本分类模型来检测一个句子是引用另一个文档还是引用的主题。

我受到这个article 的启发，但我找不到针对我的问题的预先存在的数据集。我必须从头开始训练模型，还是有更简单的方法来完成这项工作？

谢谢，

利亚姆

PS：我在 Python 中工作

【问题讨论】：

【解决方案1】：

鉴于您非常具体的用例，您很可能必须通过对您所参考的技术文档中的示例进行注释来自行准备数据集。

您可以使用Snorkel 半自动完成此操作，考虑到您的任务相对简单，这可能是最佳策略。 labelling functions 的权重可以给你一个很好的分类器。

参考文章中使用的方法相当繁重，并且需要大量您没有的注释数据。因此，除非您愿意花费数周时间对数据进行注释，否则我不会尝试使用它。

【讨论】：