【问题标题】:GCP Dataproc with ElasticsearchGCP Dataproc 与 Elasticsearch
【发布时间】:2018-12-19 20:31:02
【问题描述】:
我在云中有一台服务器(隐藏在 VPN 后面),我在其上运行单节点 Elasticsearch 集群。在这个 Elasticsearch 实例中,我有一个索引(假设它被命名为 metrics-data)——它占用了 8GB 的大小。
我想部署 GCP Dataproc 集群并使用 Spark 和 Jupyter 对来自这个远程 Elasticsearch 集群的指标数据索引执行一些分析。
实现这一目标的最简单方法是什么?
【问题讨论】:
标签:
apache-spark
elasticsearch
google-cloud-platform
jupyter
google-cloud-dataproc
【解决方案1】:
好吧,毕竟我决定:
- 使用
elasticdump 将我的 Elasticsearch 集群中的索引转储到本地计算机:
elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
--output=./data/metrics-data.json --sourceOnly --limit=10000
- 将文件上传到 Google Cloud Storage (GCS):
for i in ./data/*; do gsutil cp $i gs://bucket-name/; done
- 使用 Cloud Storage connector 将数据加载到 Spark(默认安装在 GCP Dataproc 上)
如果elasticdump 直接输出到 GCP(就像亚马逊 S3 一样),那就更流畅了。
不确定它是否最简单但对我有用。