【发布时间】:2021-07-27 08:18:50
【问题描述】:
我需要解析几个技术文本文档以找到每个引用实例。
使用正则表达式,我可以轻松地提取出所有提及的参考文献,因为我们所有的文档都遵循命名标准。
例如:ABC0001、AB-000-001、AB-00001等
我面临的问题是,一个文本通常不会只是引用另一个文档,而是会说它正在被另一个文档引用。
例如,这里有 2 个可能的句子:
有关详细信息,请参阅 AB-000-001。
或
本文档被 AB-00001 用作参考。
由于这些句子不一定遵循某种模式,我想使用一个简单的文本分类模型来检测一个句子是引用另一个文档还是引用的主题。
我受到这个article 的启发,但我找不到针对我的问题的预先存在的数据集。我必须从头开始训练模型,还是有更简单的方法来完成这项工作?
谢谢,
利亚姆
PS:我在 Python 中工作
【问题讨论】:
标签: python regex nlp text-classification