机器学习：从文件列表中提取关键字答案

【问题标题】：machine learning: keyword extraction from list of files机器学习：从文件列表中提取关键字
【发布时间】：2017-01-23 15:48:36
【问题描述】：

我有一份具有不同页数和演示文稿的 pdf 文件列表。每个文件都包含我需要提取的信息列表。但问题是信息包含在不同类型的短语和语法中。我需要知道我是否需要构建一个机器学习来做到这一点，以及是否适合我的算法和技术。注意：我有一个庞大的 pdf 文件数据集可用于训练模型。

【问题讨论】：

您的问题是简单地提取信息，还是在提取后也对其进行分析？如果是后者，你分析的目的是什么？没有这些信息，没有人可以指导您。还请提及您迄今为止在提取文本方面所做的尝试。
现在我只需要提取这些信息。
您能否举例说明您的问题中数据的结构？您可能可以使用Tabula，具体取决于数据的结构。
例如我想提取公司名称：Siemens AG 第 1 张图片，OMRON Corporation 第 2 张图片和 TOKAI RIKA 在第 3 张和最后一张图片 [dropbox.com/s/mc39qt6cizzd7rc/cpt1.JPG?dl=0], [dropbox.com/s/4fq7l23c6vqcpcr/cpt2.JPG?dl=0], [dropbox.com/s/cmcnkf7z9l0747o/cpt3.JPG?dl=0] 和 [ dropbox.com/s/n5sazg8imrwiocg/cpt4.JPG?dl=0]
你的标签到处都是。 python：为什么？您没有在问题中提及任何编程语言。 text-extraction：为什么？提取文本似乎没有问题。 pdf：为什么？好的，您的来源是 PDF 文件 - 但您的问题不是关于 PDF，也不是您遇到的问题。

【解决方案1】：

因此，如果您想在 Python 中执行此操作，似乎 PyPDF2 是要走的路。您应该能够从 PDF 中读取和提取所需的文本数据。 Automate the boring stuff 有使用 PyPDF2 的示例。

【讨论】：

我将 pypdf2 与 ocr 结合使用，因为我已扫描 pdf 以从 pdf 文件中获取文本。我关心的是如何从本文中提取一些信息，例如公司名称、频率、模块名称等。这些信息包含在不同的上下文和短语中。我的 pdf 也是由表格制成的，在转换为文本后我无法很好地格式化。
上下文和短语是否有一些潜在的结构？如果您自己无法辨别数据的任何底层结构，我不确定您是否可以编写一些可以做到的东西。有没有一种方法可以使用正则表达式搜索公司名称和其他内容？
感谢您的回复。我想我现在将搜索数据的结构。我认为 Tabula 也可能对表格分析有很好的帮助。