【发布时间】:2018-05-06 17:44:45
【问题描述】:
我想用我自己的实体为 NER 训练一个空白模型。为此,我需要使用一个数据集,该数据集当前为 .csv 格式,并具有以下格式的实体标签(我将为每个相关列提供一个示例行):
列:句子
价值:我想要苹果
列:数据
值:['want;@command;2;6','apples';@fruit;7;13']
列:实体
值:我@command @fruit
列:实体类型
值:@bot/@command;@bot/@food/@fruit
为了训练 SpaCy 的 NER,我需要以下格式的 json 格式的训练数据:
TRAIN_DATA = [
('Who is Shaka Khan?', {
'entities': [(7, 17, 'PERSON')]
}),
('I like London and Berlin.', {
'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
})
]
Link to the relevant part in the SpaCy Docs
我试图找到一种解决方案,以解决如何将 csv 中的数据重新格式化为 SpaCy 所需的格式,但到目前为止我还没有成功。数据集确实包含所有必要的信息 - 文本字符串、实体名称、实体类型、实体偏移量 - 但我根本不知道如何以正确的形式获取它们。
我将不胜感激有关如何完成此任务的任何和所有帮助!
【问题讨论】:
标签: json format training-data named-entity-recognition spacy