GCP Dataproc 与 Elasticsearch

【问题标题】：GCP Dataproc with ElasticsearchGCP Dataproc 与 Elasticsearch
【发布时间】：2018-12-19 20:31:02
【问题描述】：

我在云中有一台服务器（隐藏在 VPN 后面），我在其上运行单节点 Elasticsearch 集群。在这个 Elasticsearch 实例中，我有一个索引（假设它被命名为 metrics-data）——它占用了 8GB 的大小。

我想部署 GCP Dataproc 集群并使用 Spark 和 Jupyter 对来自这个远程 Elasticsearch 集群的指标数据索引执行一些分析。

实现这一目标的最简单方法是什么？

【问题讨论】：

【解决方案1】：

好吧，毕竟我决定：

使用 elasticdump 将我的 Elasticsearch 集群中的索引转储到本地计算机：

elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
    --output=./data/metrics-data.json --sourceOnly --limit=10000

将文件上传到 Google Cloud Storage (GCS)：

for i in ./data/*; do gsutil cp $i gs://bucket-name/; done

如果elasticdump 直接输出到 GCP（就像亚马逊 S3 一样），那就更流畅了。

不确定它是否最简单但对我有用。

【讨论】：