【问题标题】:Nesting pipelines in apache beam在 apache 梁中嵌套管道
【发布时间】:2017-04-21 20:51:27
【问题描述】:

我正在寻找使用 apache beam 执行以下操作。
专门针对张量流神经网络的预处理。

  • 用于文件夹中的每个文件。
    • 对于文件中的每一行
      • 处理线到一维浮点列表

我需要每个返回是每个文件的二维浮点列表。

我想我可以通过创建嵌套管道来实现这一点。
我可以在另一个管道的 ParDo 中创建和运行管道。

这似乎效率低下,但我的问题似乎是一个非常标准的用例。

  • 在 Apache Beam 中是否有工具可以更好地做到这一点?
  • 有没有办法重组我的问题以使其在 apache Beam 中更好地工作?
  • 嵌套管道没有我想的那么糟糕吗?

谢谢

【问题讨论】:

    标签: tensorflow apache-beam tensorflow-transform


    【解决方案1】:

    Apache Beam 是使用 Tensorflow 为机器学习预处理数据的绝佳工具。有关此一般用例和tf.Transform 的更多信息,请参阅此post

    似乎没有任何描述表明需要“嵌套管道”。处理目录中每个文件的每一行是一个简单的TextIO.Read 转换。目前还不清楚您从现在开始的要求是什么,但总的来说,将行分隔为浮点数并与其他行连接是简单的 ParDo 和分组操作。

    作为一般指导,我会避免嵌套管道,并尝试分解问题以适应单个管道。

    【讨论】:

    • 谢谢,分组功能我没看懂。
    猜你喜欢
    • 2023-03-07
    • 2018-11-05
    • 2023-02-08
    • 2020-12-07
    • 2021-07-26
    • 1970-01-01
    • 1970-01-01
    • 2019-11-25
    • 1970-01-01
    相关资源
    最近更新 更多