【问题标题】:Load parquet data from Google cloud storage to BigQuery using spark使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery
【发布时间】:2019-12-04 07:37:42
【问题描述】:

如何加载 Parquet 数据以从 Google 云存储中触发并将其保存到 BigQuery?

【问题讨论】:

  • 很好哈哈。

标签: apache-spark google-bigquery google-cloud-storage


【解决方案1】:

要将数据从 Google Cloud Storage 加载到 Spark:

df=spark.read.parquet("gs://<path to parquet file>")

你可以在做必要的转换后以类似的方式编写(将gs添加到文件名的开头)

您可以通过以下链接将 parquet 中的云存储中的数据从 parquet 加载到 BigQuery:

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet

【讨论】:

  • 在写入 BQ 之前,我们还需要对数据进行一些转换。因此,我们正在考虑使用 spark。
  • 如果这解决了您的问题,请将其标记为答案
猜你喜欢
  • 2016-06-07
  • 2017-02-10
  • 1970-01-01
  • 2018-10-30
  • 1970-01-01
  • 1970-01-01
  • 2020-06-15
  • 2016-08-10
  • 1970-01-01
相关资源
最近更新 更多