使用 CRF 识别文档的特定部分

【问题标题】：Identifying specific parts of a document using CRF使用 CRF 识别文档的特定部分
【发布时间】：2017-11-09 03:17:37
【问题描述】：

我的目标是给定一组文档（主要是金融领域），我们需要识别其中的特定部分，例如公司名称或文档类型等。

假设培训是在 100 份文档上完成的。显然，我会有一个倾斜的类分布（None 在大约 99.9% 的示例中占主导地位）。我计划使用 CRF（Sklearn 上的 CRFsuite）并阅读了必要的文献。我需要一些关于以下方面的建议：

数据集是否足以训练 CRF？考虑到每个文档可以分成大约 100 个标记（每个标记是一个训练实例），我们总共会得到 10000 个实例。
- 数据集是否会过于偏斜而无法训练 CRF？例如：对于 100 个文档，我将有大约 400 个给定类的实例和大约 8000 个无实例

【问题讨论】：

标签： machine-learning scikit-learn named-entity-recognition document-classification crf

【解决方案1】：

没有人知道，你必须在你的数据集上尝试它，检查结果质量，也许检查 CRF 模型（例如 https://github.com/TeamHG-Memex/eli5 支持 sklearn-crfsuite - 一个无耻的插件），尝试提出更好的功能或决定注释更多示例等。这只是一般的数据科学工作。数据集大小看起来偏低，但取决于数据的结构和特征的好坏，几百个文档可能足以开始。由于数据集较小，您可能需要在特征工程上投入更多时间。
我认为班级不平衡不是问题，至少它不太可能是您的主要问题。

【讨论】：

猜你喜欢

2018-04-19
1970-01-01
1970-01-01
2011-05-26
1970-01-01
2020-12-07
2018-06-12
2022-10-17
2015-02-03

相关资源

下载 2021-06-05
下载 2022-12-14
下载 2023-01-21
下载 2023-02-23

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode