【问题标题】:Split pack of text files into multiple subsets according to the content of the files根据文件内容将文本文件包拆分为多个子集
【发布时间】:2018-07-02 14:19:09
【问题描述】:

我有很多 PDF、DOC[X]、TIFF 和其他文件(从共享文件夹扫描)。每个文件转换成文本文件包:每页一个文本文件。

每个文件包可以包含多个文档(例如您的合同)。文档类型可以不仅仅是合同

在处理文件包的过程中,我不知道当前包包含哪些类型的文件,并且一个包可能包含多种文件类型(合同、发票等)。

我正在寻找一些可能的方法来以编程方式解决这个问题。

我试图搜索类似的东西,但没有任何成功。

UPD:我尝试使用scikit-learn 创建二进制分类器,现在正在寻找另一个解决方案。

【问题讨论】:

    标签: python algorithm machine-learning nlp


    【解决方案1】:

    从根本上说,它们是“扫描”,听起来更像是可以用计算机视觉处理的东西,但是目前这远远高于我目前的编程水平。

    例如像 SimpleCV 这样的项目可能是一个很好的起点, http://www.simplecv.org/

    或者,您也可以通过 OCR 读取“扫描”并根据内容进行工作。 pytesseract 似乎在这类任务中很受欢迎, https://pypi.org/project/pytesseract/

    但是仍然没有定义如何告诉程序这部分图像意味着这是 3 个单独的合同,这些文件有什么特别说明这一点的吗,例如页面上的“1 of 3”、徽标或其他?这将是决定你试图解决的问题有多复杂的主要部分。

    【讨论】:

      【解决方案2】:

      最佳解决方案是创建二元分类器 (SGDClassifier) 并在 first-pagenot-first-page 类上对其进行训练。数据集中的每个项目都被修剪为 100 个标记(单词)

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2015-11-14
        • 2017-04-27
        • 2013-01-09
        • 1970-01-01
        • 2017-07-15
        • 1970-01-01
        • 1970-01-01
        • 2012-09-13
        相关资源
        最近更新 更多