【发布时间】:2019-12-23 04:36:48
【问题描述】:
我正在尝试使用 R sparklyr 将多个 parquet 文件加载到一个 Spark 表中。随附的代码显示了我是如何做到的。
spark_load_data <- function(db_conn, test_period)
{
library(DBI)
#
overwrite <- TRUE
#
for (ts in seq(as.Date(test_period["START_DATE","VALUE"]),
as.Date(test_period["END_DATE","VALUE"]),
by="day")) {
#
# date to load
#
td <- format(as.Date(ts,origin="1970-01-01"), "%Y-%m-%d")
#
# load parquet files
#
tbl <- "pcidata"
pq_path <- paste0("s3://<path>/PciData/transaction_date=", td)
read_in <- spark_read_parquet(db_conn,
name=tbl,
path=pq_path,
overwrite=overwrite)
#
overwrite <- FALSE
}
}
我想让 Spark 表包含所有 parquet 文件,而不是覆盖数据或跳过它。这个可以吗?
【问题讨论】:
标签: r apache-spark sparklyr