【问题标题】:Searching for a file inside HDFS using MapReduce使用 MapReduce 在 HDFS 中搜索文件
【发布时间】:2015-07-06 07:35:27
【问题描述】:

我是 Hadoop 的新手,想知道如何使用 MapReduce 在 HDFS 中搜索指定的文件名?假设我有数千 TB 的图像地图数据,这些数据由它们的纬度/经度坐标命名。提供给定的纬度/经度坐标,我如何使用 MapReduce 快速找到该文件?

我四处搜索,发现一种方法是将其通过管道传递给 grep:

hdfs dfs -ls -R / | grep [search_term]

但这对于许多大数据文件来说会很慢。

【问题讨论】:

    标签: hadoop mapreduce filesystems distributed distributed-computing


    【解决方案1】:

    这是我的看法:

    1. 不建议在 HDFS 中存储太多文件。检查此链接:Namenode File No. Limit

    2. 使用 MR 搜索效率不高。特别是如果您的数据没有分区或索引。

    3. 最好使用 KeyValue 存储或分布式搜索工具(如 Elastic Search)来解决您的案例(鉴于我对您的用例了解有限)

    【讨论】:

      猜你喜欢
      • 2013-02-26
      • 2019-07-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-24
      • 1970-01-01
      相关资源
      最近更新 更多