【发布时间】:2019-07-19 14:37:31
【问题描述】:
我刚开始使用 TensorFlow 和 python,需要一些帮助来解决我的问题。我想用 TensorFlow 进行文档分类。我有 20 种不同的文档分类。作为模特,我认为 CNN 是我所需要的。
对于训练,我有以下数据集:
image --> 文档的图像
图像的ocr已经完成,所以我得到了
textdata --> 包含 OCR 找到的所有单词(词袋?)
position.xml --> 单词的位置,即:
<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" />
<postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" />
<postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" />
<postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />
分类 --> 文档是什么类(95% 正确) 通过人工验证
我至少有 20.000 个数据集,上面的所有信息都在其中给出。
对于测试,缺少分类数据集。有人可以给我一些关于如何解决问题的提示吗?我没有编写代码,因为我不知道如何从给定的信息开始。
【问题讨论】:
标签: python tensorflow