【发布时间】:2017-10-19 09:16:52
【问题描述】:
我最近开始使用 SpaCy 进行 NLP 之旅,我有大约 5,500 个字符串要标记。对于前 100 个,我使用带有自定义列的电子表格来执行此操作,然后通过脚本运行该电子表格以生成 Python 字典。在工作表中,我存储了字符串、标签类型、标签值。然后脚本从字符串中计算出标签值的位置。
以这种方式生成训练数据相当耗时,而且容易出错。
是否有任何工具可以帮助解决这个问题?我实际上只需要能够突出显示子字符串,然后选择标签类型。我可以自己构建它,但我觉得它可能已经存在。
【问题讨论】:
标签: nlp training-data spacy