【发布时间】:2017-11-14 11:33:52
【问题描述】:
我正在使用 pyspark。
我想在 Google 地图上加载一个常规的 jsonfile,比如“region-polygon-mapping”文件,其中包含区域名称及其多边形。
当我处理另一个数据集 RDD 时,我想在 map 函数中使用“区域多边形映射”,比如测试 RDD 中的点是否在多边形区域中。
问题是如何在 RDD 映射函数中使用 json 作为常规文件。 json 文件非常小,spark 不允许使用 json 作为第二个 rdd,因为我们不能在另一个 rdd 的 map 函数中使用一个 rdd。如果我这样做,这是错误。
pickle.PicklingError: 由于需要深度递归,无法腌制对象。
有什么想法吗?
【问题讨论】:
标签: json apache-spark pyspark rdd