【发布时间】:2019-08-21 14:01:47
【问题描述】:
目前我们正在构建一个报告平台,作为我们使用 Shark 的数据存储。由于 Shark 的开发已经停止,所以我们正处于评估 Spark SQL 的阶段。根据我们的用例,我们有几个问题。
1) 我们有来自各种来源(MySQL、Oracle、Cassandra、Mongo)的数据。我们想知道如何将这些数据导入 Spark SQL?是否存在任何我们可以使用的实用程序?此实用程序是否支持连续刷新数据(将数据存储上的新添加/更新/删除同步到 Spark SQL?
2) 是在 Spark SQL 中创建多个数据库的方法吗?
3) 对于我们使用 Jasper 的报告 UI,我们希望从 Jasper 连接到 Spark SQL。当我们进行初始搜索时,我们了解到目前不支持消费者通过 JDBC 连接 Spark SQL,但在未来的版本中,您希望添加相同的内容。我们想知道 Spark SQL 什么时候会有一个支持 JDBC 的稳定版本?同时,我们从https://github.com/amplab/shark/tree/sparkSql 获取源代码,但我们在本地设置和评估它时遇到了一些困难。如果您能帮助我们提供设置说明,那就太好了。(我可以分享我们面临的问题,请告诉我在哪里可以发布错误日志)
4) 我们还需要一个可以执行查询的 SQL 提示符,目前 Spark Shell 提供了可以执行 SCALA 代码的 SCALA 提示符,我们可以从 SCALA 代码触发 SQL 查询。像 Shark 一样,我们希望在 Spark SQL 中有 SQL 提示符。当我们进行搜索时,我们发现在 Spark 的未来版本中会添加这个。如果您能告诉我们 Spark 的哪个版本可以解决同样的问题,那就太好了。
【问题讨论】:
-
嗨,我正在尝试将数据从 Apache spark 存储到 mysql。你有没有解决你的问题?如果是的话,你能分享一下你是如何建立spark和mysql之间的通信的吗?这对我会有很大的帮助。谢谢
标签: apache-spark