【发布时间】:2018-07-02 14:19:09
【问题描述】:
我有很多 PDF、DOC[X]、TIFF 和其他文件(从共享文件夹扫描)。每个文件转换成文本文件包:每页一个文本文件。
每个文件包可以包含多个文档(例如您的合同)。文档类型可以不仅仅是合同。
在处理文件包的过程中,我不知道当前包包含哪些类型的文件,并且一个包可能包含多种文件类型(合同、发票等)。
我正在寻找一些可能的方法来以编程方式解决这个问题。
我试图搜索类似的东西,但没有任何成功。
UPD:我尝试使用scikit-learn 创建二进制分类器,现在正在寻找另一个解决方案。
【问题讨论】:
标签: python algorithm machine-learning nlp