【发布时间】:2018-07-14 10:06:41
【问题描述】:
我创建了一个包含模型训练数据的 .txt 文件。训练样本具有一定的结构,如下所示:
("sample sentence",
{"entities": [ ]})
我有 600 个需要放入 python 列表中。但是,当我使用file.readlines() 等进行“正常”python 读取时,我将所有示例导入为基本上如下的字符串:
'("sample sentence",'
'{"entities": [ ]})'
是什么使训练数据对模型无效。
所以我的问题是如何告诉 python 在没有任何字符串格式的情况下读取 .txt 文件,而是按原样读取它?
//编辑:
.txt 是一个包含训练数据的文件,该文件适合遵循 NER 注释方案的 spaCy 模型的训练过程。 spaCy 文档页面中带有 NER 注释方案的训练数据示例:
TRAIN_DATA = [
("Uber blew through $1 million a week", {'entities': [(0, 4, 'ORG')]}),
("Google rebrands its business apps", {'entities': [(0, 6, "ORG")]})]
我的 .txt 文件看起来完全像这样,除了在 .txt 文件的开头和结尾没有 [ ] 并且在其间换行。所以这个例子在我的 .txt 文件中看起来像这样:
("Uber blew through $1 million a week",
{'entities': [(0, 4, 'ORG')]}),
("Google rebrands its business apps",
{'entities': [(0, 6, "ORG")]})
【问题讨论】:
-
请在您的问题示例中添加输入文件。不只是一个对象。