根据文件内容将文本文件包拆分为多个子集答案

【问题标题】：Split pack of text files into multiple subsets according to the content of the files根据文件内容将文本文件包拆分为多个子集
【发布时间】：2018-07-02 14:19:09
【问题描述】：

我有很多 PDF、DOC[X]、TIFF 和其他文件（从共享文件夹扫描）。每个文件转换成文本文件包：每页一个文本文件。

每个文件包可以包含多个文档（例如您的合同）。文档类型可以不仅仅是合同。

在处理文件包的过程中，我不知道当前包包含哪些类型的文件，并且一个包可能包含多种文件类型（合同、发票等）。

我正在寻找一些可能的方法来以编程方式解决这个问题。

我试图搜索类似的东西，但没有任何成功。

UPD：我尝试使用scikit-learn 创建二进制分类器，现在正在寻找另一个解决方案。

【问题讨论】：

标签： python algorithm machine-learning nlp

【解决方案1】：

从根本上说，它们是“扫描”，听起来更像是可以用计算机视觉处理的东西，但是目前这远远高于我目前的编程水平。

例如像 SimpleCV 这样的项目可能是一个很好的起点， http://www.simplecv.org/

或者，您也可以通过 OCR 读取“扫描”并根据内容进行工作。 pytesseract 似乎在这类任务中很受欢迎， https://pypi.org/project/pytesseract/

但是仍然没有定义如何告诉程序这部分图像意味着这是 3 个单独的合同，这些文件有什么特别说明这一点的吗，例如页面上的“1 of 3”、徽标或其他？这将是决定你试图解决的问题有多复杂的主要部分。

【讨论】：

【解决方案2】：

最佳解决方案是创建二元分类器 (SGDClassifier) 并在 first-page 和 not-first-page 类上对其进行训练。数据集中的每个项目都被修剪为 100 个标记（单词）

【讨论】：