【问题标题】:Document Classification with tensorflow使用 tensorflow 进行文档分类
【发布时间】:2019-07-19 14:37:31
【问题描述】:

我刚开始使用 TensorFlow 和 python,需要一些帮助来解决我的问题。我想用 TensorFlow 进行文档分类。我有 20 种不同的文档分类。作为模特,我认为 CNN 是我所需要的。

对于训练,我有以下数据集:

image --> 文档的图像

图像的ocr已经完成,所以我得到了

textdata --> 包含 OCR 找到的所有单词(词袋?)

position.xml --> 单词的位置,即:

<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" /> <postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" /> <postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" /> <postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />

分类 --> 文档是什么类(95% 正确) 通过人工验证

我至少有 20.000 个数据集,上面的所有信息都在其中给出。

对于测试,缺少分类数据集。有人可以给我一些关于如何解决问题的提示吗?我没有编写代码,因为我不知道如何从给定的信息开始。

【问题讨论】:

    标签: python tensorflow


    【解决方案1】:

    在非常高的层次上,您可以将问题视为监督分类,其中每个文档(示例)都与单个类(标签 em>)。您的数据集包含一些 20k 标记示例(并且您有一些未标记的测试数据)。对于第一个实验,您可以只关注标记示例,因为它允许您评估分类器。

    关于文档分类的文献很多,但既然你想在 TF 中做,那么如何开始的技巧很少。

    • 您可以将数据拆分为 trainingdevelopmenttest 集或执行 cross-validation。对于前者,tensorflow-datasets 包或简单的tf.data.Dataset 可能会有所帮助。

    • 就您的模型而言,您可以尝试简单的词袋,但 TF 拥有触手可及的高级模型(例如长短期记忆,LSTM)。

    这里有几个很好的起点:

    希望对你有帮助!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-03-10
      • 2015-11-20
      • 2011-12-10
      • 1970-01-01
      • 2020-12-12
      • 2018-07-23
      • 2017-04-11
      • 2011-07-29
      相关资源
      最近更新 更多