【发布时间】:2016-10-12 00:36:45
【问题描述】:
我正在尝试使用 Stratio 的 Spark-MongoDB library 查询 MongoDB 集合。我按照this 线程开始使用,我目前正在运行以下代码:
reader = sqlContext.read.format("com.stratio.datasource.mongodb")
data = reader.options(host='<ip>:27017', database='<db>', collection='<col>').load()
这会将整个集合加载到 Spark 数据帧中,并且由于集合很大,这会花费很多时间。有什么方法可以指定查询过滤器并仅将选定的数据加载到 Spark 中?
【问题讨论】:
标签: mongodb apache-spark pyspark apache-spark-sql stratio