【问题标题】:StreamInputFormat for mapreduce jobmapreduce 作业的 StreamInputFormat
【发布时间】:2012-12-12 04:59:02
【问题描述】:

我有一个应用程序连接到远程系统并使用 sftp 协议从中传输数据。我想使用 mapreduce 作业来做同样的事情。我需要一种从输入流中读取的输入格式。我一直在浏览 HStreamInputFormat 和 StreamInputFormat 的文档,但我的 hadoop-2.0 似乎不支持这些类。我该如何进行?任何指向使用输入格式从输入流中读取的教程或示例的链接?

【问题讨论】:

    标签: hadoop mapreduce hadoop-streaming


    【解决方案1】:

    如果这些 SteamInputFormat 不支持您的需求,那么您最好根据您的自定义需求编写自己的 InputFormat。请阅读this 教程以了解如何编写自己的自定义 InputFormat 和 RecordReader。

    【讨论】:

    • 谢谢 :) 不能在这里编写 InputFormat,因为我不知道如何将输入流作为映射器的路径处理,而 hadoop 没有任何基类。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-12-04
    • 2012-04-30
    • 1970-01-01
    • 2020-11-01
    • 1970-01-01
    相关资源
    最近更新 更多