【发布时间】:2014-01-31 23:41:45
【问题描述】:
您好,我是使用 Amazon EMR 和 Hadoop 的新手。我想知道如何从 EMR 作业中读取外部文件(存储在 S3 中)。例如,我有一个文件,其中包含一长串列入黑名单的字符串。当我的 EMR 作业正在处理我的输入时,如何让作业事先读取此列入黑名单的字符串列表,以便在处理期间使用它?
我尝试使用常规 Java Scanner 类并对文件的 S3 路径进行硬编码,但这似乎不起作用,尽管我可能做错了...
【问题讨论】:
标签: file-io amazon elastic-map-reduce emr