【问题标题】:How to load JPG ,PDF files to HBASE using SPARK?如何使用 SPARK 将 JPG、PDF 文件加载到 HBASE?
【发布时间】:2019-05-09 22:29:17
【问题描述】:

我在 HDFS 中有图像文件,我需要将它们加载到 HBase。我可以使用 SPARK 代替 MapReduce 来完成这项工作吗?如果是怎么做,请建议。刚接触 hadoop 生态系统。

我创建了一个 MOB 类型的 Hbase 表,其大小阈值为 10MB。 我被困在这里如何使用 shell 命令行加载数据。 经过一些研究,有一些使用 MapReduce 的建议,但没有提供信息。

【问题讨论】:

    标签: apache-spark hbase


    【解决方案1】:

    您可以使用 Apache Tika... 以及 Tika 支持的 sc.binaryFiles(filesPath) 格式为 formats

    你需要的

    图像格式 ImageParser 类使用标准 javax.imageio 从支持的图像格式中提取简单元数据的功能 Java平台。更复杂的图像元数据可通过 使用元数据提取器的 JpegParser 和 TiffParser 类 支持从 Jpeg 和 Tiff 提取 Exif 元数据的库 图片。 和

    Portable Document Format PDFParser 类解析器 Portable Document 使用 Apache PDFBox 库格式化 (PDF) 文档。

    使用 Spark 的示例代码参见 my answer

    me 在此处给出的另一个示例代码答案,用于加载到 hbase

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多