使用 tensorflow 进行文档分类答案

【问题标题】：Document Classification with tensorflow使用 tensorflow 进行文档分类
【发布时间】：2019-07-19 14:37:31
【问题描述】：

我刚开始使用 TensorFlow 和 python，需要一些帮助来解决我的问题。我想用 TensorFlow 进行文档分类。我有 20 种不同的文档分类。作为模特，我认为 CNN 是我所需要的。

对于训练，我有以下数据集：

image --> 文档的图像

图像的ocr已经完成，所以我得到了

textdata --> 包含 OCR 找到的所有单词（词袋？）

position.xml --> 单词的位置，即：

<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" /> <postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" /> <postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" /> <postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />

分类 --> 文档是什么类（95% 正确）通过人工验证

我至少有 20.000 个数据集，上面的所有信息都在其中给出。

对于测试，缺少分类数据集。有人可以给我一些关于如何解决问题的提示吗？我没有编写代码，因为我不知道如何从给定的信息开始。

【问题讨论】：

标签： python tensorflow

【解决方案1】：

在非常高的层次上，您可以将问题视为监督分类，其中每个文档（示例）都与单个类（标签 em>）。您的数据集包含一些 20k 标记示例（并且您有一些未标记的测试数据）。对于第一个实验，您可以只关注标记示例，因为它允许您评估分类器。

关于文档分类的文献很多，但既然你想在 TF 中做，那么如何开始的技巧很少。

您可以将数据拆分为 training、development 和 test 集或执行 cross-validation。对于前者，tensorflow-datasets 包或简单的tf.data.Dataset 可能会有所帮助。
就您的模型而言，您可以尝试简单的词袋，但 TF 拥有触手可及的高级模型（例如长短期记忆，LSTM）。

这里有几个很好的起点：

https://www.tensorflow.org/beta/tutorials/load_data/text
- 基本上是您问题的答案；您只需要将数据加载到 tf.data.Dataset 中，这可能不是那么简单，因为本教程在此处使用了一些快捷方式
使用预处理数据进行文本分类的教程也可能会有所帮助
- https://www.tensorflow.org/beta/tutorials/keras/basic_text_classification
如果您想先将数据转换为tfds.core.DatasetBuilder 以便轻松集成，请查看例如：
- https://github.com/tensorflow/datasets/blob/master/tensorflow_datasets/text/imdb.py（但如果你缺乏 TF 经验，这是相当高级的）

希望对你有帮助！

【讨论】：