【问题标题】:Neural Network: Convert HTML Table into JSON data神经网络:将 HTML 表格转换为 JSON 数据
【发布时间】:2019-01-26 19:27:09
【问题描述】:

我对神经网络有点陌生,刚开始通过尝试一些示例来学习对其进行编码。 两周前,我正在寻找一个有趣的挑战,我找到了一个。但是我要放弃了,因为这对我来说似乎太难了……但是我很想知道你们中是否有人能够解决这个问题?

问题:假设存在“.htm”文件,其中包含有关同一主题的表格。但是每个文件的表结构并不相同。例如:我们有很多“.htm”文件,其中包含每所学校每天更换教师的信息。因为这些“.htm”文件的结构对于每个文件都不相同,所以很难编写一个可以从这些表中提取数据的解析器。所以我的想法是,这是神经网络的任务。

第一个问题:这是神经网络可以/应该处理的任务还是我弄错了?

因为对我来说,神经网络似乎适合这种挑战,所以我尝试了输入。我想出了两个选择:

第一个输入选项:将HTML代码(仅来自body-tag)作为字符串并将其转换为张量

第二个输入选项:将 HTML 表格转换为图像(可能通过 Canvas)并通过 Conv2D-Layers 将此输入提供给 DNN。

第二个问题:这些选项有用吗?你有什么更好的解决办法吗?

之后我想弄清楚如何让 DNN 为我输出这些高度动态的数据?我的想法是将我想要的 JSON 输出转换为张量,并在训练时将它们提供给 DNN,对于每个预测,我希望 DNN 返回一个可转换为 JSON 输出的张量......

第三个问题: 是否有可能从 DNN 获得如此详细的输出?如果是:您认为输出适合这项任务吗?

最后一个问题:假设我所有的假设都是正确的 - 训练这个 DNN 不会永远需要吗?假设您有一个 RTX 2080 ti。你猜怎么着?

我想就是这样。我希望我能从你们那里学到很多东西!

(我很抱歉我的英语不好 - 这不是我的母语)

加法:

这是一个更深入的示例。假设我们有一个看起来像这样的“.htm”文件:

任务是从该表中获取所有相关信息。例如: 由于取消,“9c”班的所有学生在第 6 小时内没有课程。

【问题讨论】:

    标签: tensorflow machine-learning keras neural-network deep-learning


    【解决方案1】:

    1) 这不是特别适合神经网络的问题,因为您的域是内部具有明确依赖关系的结构化数据。基于树的 ML 算法往往在此类问题上显示出更好的结果。

    2) 两种输入方式都非常非结构化。从这些数据中学习几乎是不可能的。这些是为模型提供更多知识的明确方法。例如,您有不同格式的相同数据,不同之处仅在于结构。这意味着模型需要学习从一个结构到另一个结构的映射,它不需要知道任何数据。因此,可以使用唯一标识符对单词进行标记,以删除不必要的信息。 Htm 数据可以解析为树,也可以解析为 json。然后,有不同的方法来表示图结构,可以在 ML 模型中使用。

    3) 似乎唯一合适的输出选项是一系列标识符,这些标识符指向文本中的唯一实体。整个问题类似于 Seq2Seq,最好由具有解码器-编码器架构的 RNN 解决。

    我相信,如果有足够的数据并且htm文件没有大量的噪音,这个任务是可以完成的。训练时间很大程度上取决于所选模型及其复杂性,以及初始数据的多样性。

    【讨论】:

    • 感谢您的回答!我想我选择了一个艰难的挑战……我不太明白如何使用 RNN/seq2seq 模型……我看过一些关于它的视频,但是……你有什么推荐给我的吗?阅读或学习,以便我能够掌握这个特定的挑战?另外:我已经编辑了我的答案并添加了一个更具体的例子......感谢您的广泛评估!
    猜你喜欢
    • 2014-01-15
    • 1970-01-01
    • 2020-08-11
    • 1970-01-01
    • 2011-06-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-05
    相关资源
    最近更新 更多