Spark HBase 到 Google Dataproc 和 Bigtable 的迁移答案

【问题标题】：Spark HBase to Google Dataproc and Bigtable migrationSpark HBase 到 Google Dataproc 和 Bigtable 的迁移
【发布时间】：2018-05-26 23:50:10
【问题描述】：

我在 AWS EMR 集群上运行 HBase Spark 作业。最近我们搬到了 GCP。我将所有 HBase 数据传输到 BigTable。现在我在 Dataproc 中运行相同的 Spark - Java/Scala 作业。 Spark 作业失败，因为它正在查看 spark.hbase.zookeeper.quorum 设置。

请告诉我，我如何在不更改代码的情况下使用 BigTable 使我的 spark 作业成功运行。

问候，尼拉吉·维尔马

【问题讨论】：

您是否尝试过将 hbase-site.xml 显式导出到 SPARK_CLASSPATH ？
@gruby 我的问题是，我需要避免使用 hbase，因为我想使用 Bigtable。那么 hbase-site.xml 中是否有任何我可以更改的设置以便我可以使用 Bigtable
也许这会对你有所帮助：github.com/GoogleCloudPlatform/cloud-bigtable-examples/blob/…
您能否提供其他信息：您链接的 hbase 版本是什么？什么是完整的错误堆栈跟踪？什么版本的 Dataproc？
为了后人，我们在 google 群里讨论这个问题：groups.google.com/forum/#!topic/cloud-dataproc-discuss/…

标签： google-cloud-platform google-cloud-dataproc bigtable google-cloud-bigtable

【解决方案1】：

虽然 BigTable 与 HBase 共享相同的原理并且相同的 Java API 可用，但它不共享其有线协议。所以标准的 HBase 客户端不起作用（zookeeper 错误看起来你正试图通过 HBase 客户端连接到 BigTable）。相反，您需要修改程序以使用BigTable-specific client。它实现了与 HBase 相同的 Java 接口，但需要在类路径中使用自定义 google jar，并且需要很少的属性覆盖才能启用它。

【讨论】：