【问题标题】:GCP Dataproc with ElasticsearchGCP Dataproc 与 Elasticsearch
【发布时间】:2018-12-19 20:31:02
【问题描述】:

我在云中有一台服务器(隐藏在 VPN 后面),我在其上运行单节点 Elasticsearch 集群。在这个 Elasticsearch 实例中,我有一个索引(假设它被命名为 metrics-data)——它占用了 8GB 的​​大小。

我想部署 GCP Dataproc 集群并使用 Spark 和 Jupyter 对来自这个远程 Elasticsearch 集群的指标数据索引执行一些分析。

实现这一目标的最简单方法是什么?

【问题讨论】:

    标签: apache-spark elasticsearch google-cloud-platform jupyter google-cloud-dataproc


    【解决方案1】:

    好吧,毕竟我决定:

    1. 使用 elasticdump 将我的 Elasticsearch 集群中的索引转储到本地计算机:
      elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
          --output=./data/metrics-data.json --sourceOnly --limit=10000
      
    2. 将文件上传到 Google Cloud Storage (GCS):
      for i in ./data/*; do gsutil cp $i gs://bucket-name/; done
      
    3. 使用 Cloud Storage connector 将数据加载到 Spark(默认安装在 GCP Dataproc 上)

    如果elasticdump 直接输出到 GCP(就像亚马逊 S3 一样),那就更流畅了。

    不确定它是否最简单但对我有用。

    【讨论】:

      猜你喜欢
      • 2019-06-24
      • 2019-07-15
      • 2023-01-30
      • 2019-06-02
      • 2021-12-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-29
      • 1970-01-01
      相关资源
      最近更新 更多