【发布时间】:2017-12-15 10:38:34
【问题描述】:
我们正在从 MongoDB Collection 读取数据。 Collection 列有两个不同的值(例如:(bson.Int64,int) (int,float))。
我正在尝试使用 pyspark 获取数据类型。
我的问题是某些列的数据类型不同。
假设quantity 和weight 是列
quantity weight
--------- --------
12300 656
123566000000 789.6767
1238 56.22
345 23
345566677777789 21
实际上我们并没有为 mongo 集合的任何列定义数据类型。
当我从pyspark dataframe查询计数时
dataframe.count()
我遇到了这样的异常
"Cannot cast STRING into a DoubleType (value: BsonString{value='200.0'})"
【问题讨论】:
-
到目前为止你尝试过什么?如果不提供您尝试过但没有奏效的内容,那么这里的任何人都能够帮助您是非常值得怀疑的。请查看“如何创建最小、完整且可验证的示例”stackoverflow.com/help/mcve
标签: apache-spark pyspark apache-spark-sql