【发布时间】:2016-02-25 16:10:12
【问题描述】:
我有一个用 Scala 编写的 Spark 代码。我的代码读取一个 xml 并提取其中的所有信息。目标是将 XML 中的信息存储到 Redshift 表中。
是否可以在不使用 S3 的情况下将数据直接从我的 Scala Spark 代码发送到 Redshift?
干杯!
【问题讨论】:
标签: scala apache-spark amazon-redshift
我有一个用 Scala 编写的 Spark 代码。我的代码读取一个 xml 并提取其中的所有信息。目标是将 XML 中的信息存储到 Redshift 表中。
是否可以在不使用 S3 的情况下将数据直接从我的 Scala Spark 代码发送到 Redshift?
干杯!
【问题讨论】:
标签: scala apache-spark amazon-redshift
如果您使用的是 Spark SQL,您可以使用 spark-xml 将 XML 数据读入 DataFrame,然后使用 spark-redshift 将其写入 Redshift 表中。 你也可以看看这个question。
【讨论】:
您可以在 Python/Java 代码中使用预先准备好的 SQL 语句进行行级插入,但如果您要插入的记录过多,效率会非常低。
【讨论】: