【问题标题】:machine learning: keyword extraction from list of files机器学习:从文件列表中提取关键字
【发布时间】:2017-01-23 15:48:36
【问题描述】:

我有一份具有不同页数和演示文稿的 pdf 文件列表。 每个文件都包含我需要提取的信息列表。但问题是信息包含在不同类型的短语和语法中。 我需要知道我是否需要构建一个机器学习来做到这一点,以及是否适合我的算法和技术。 注意:我有一个庞大的 pdf 文件数据集可用于训练模型。

【问题讨论】:

标签: python text-extraction


【解决方案1】:

因此,如果您想在 Python 中执行此操作,似乎 PyPDF2 是要走的路。您应该能够从 PDF 中读取和提取所需的文本数据。 Automate the boring stuff 有使用 PyPDF2 的示例。

【讨论】:

  • 我将 pypdf2 与 ocr 结合使用,因为我已扫描 pdf 以从 pdf 文件中获取文本。我关心的是如何从本文中提取一些信息,例如公司名称、频率、模块名称等。这些信息包含在不同的上下文和短语中。我的 pdf 也是由表格制成的,在转换为文本后我无法很好地格式化。
  • 上下文和短语是否有一些潜在的结构?如果您自己无法辨别数据的任何底层结构,我不确定您是否可以编写一些可以做到的东西。有没有一种方法可以使用正则表达式搜索公司名称和其他内容?
  • 感谢您的回复。我想我现在将搜索数据的结构。我认为 Tabula 也可能对表格分析有很好的帮助。
猜你喜欢
  • 2018-03-16
  • 2017-04-06
  • 1970-01-01
  • 1970-01-01
  • 2012-10-31
  • 2020-07-23
  • 2021-05-12
  • 2017-12-25
  • 1970-01-01
相关资源
最近更新 更多