【发布时间】:2017-01-23 15:48:36
【问题描述】:
我有一份具有不同页数和演示文稿的 pdf 文件列表。 每个文件都包含我需要提取的信息列表。但问题是信息包含在不同类型的短语和语法中。 我需要知道我是否需要构建一个机器学习来做到这一点,以及是否适合我的算法和技术。 注意:我有一个庞大的 pdf 文件数据集可用于训练模型。
【问题讨论】:
-
您的问题是简单地提取信息,还是在提取后也对其进行分析?如果是后者,你分析的目的是什么?没有这些信息,没有人可以指导您。还请提及您迄今为止在提取文本方面所做的尝试。
-
现在我只需要提取这些信息。
-
您能否举例说明您的问题中数据的结构?您可能可以使用Tabula,具体取决于数据的结构。
-
例如我想提取公司名称:Siemens AG 第 1 张图片,OMRON Corporation 第 2 张图片和 TOKAI RIKA 在第 3 张和最后一张图片 [dropbox.com/s/mc39qt6cizzd7rc/cpt1.JPG?dl=0], [dropbox.com/s/4fq7l23c6vqcpcr/cpt2.JPG?dl=0], [dropbox.com/s/cmcnkf7z9l0747o/cpt3.JPG?dl=0] 和 [ dropbox.com/s/n5sazg8imrwiocg/cpt4.JPG?dl=0]
-
你的标签到处都是。 python:为什么?您没有在问题中提及任何编程语言。 text-extraction:为什么? 提取文本似乎没有问题。 pdf:为什么?好的,您的来源是 PDF 文件 - 但您的问题不是 关于 PDF,也不是您遇到的问题。