【发布时间】:2018-05-26 06:07:53
【问题描述】:
我有一个非常简单的 csv 文件,如下所示:
time,is_boy,is_girl
135,1,0
136,0,1
137,0,1
我也将这个 csv 文件放在 Hive 表中,其中所有值都已在表中创建为双精度值。
在幕后,这张表实际上是巨大的,并且有大量的行,所以我选择使用 Spark 2 来解决这个问题。
我想在 Python 中使用这个集群库: https://spark.apache.org/docs/2.2.0/ml-clustering.html
如果有人知道如何直接从 csv 或使用一些 Spark SQL 魔法加载这些数据,并使用 Python 正确地对其进行预处理,以便可以将其传递到 kmeans fit() 方法并计算模型, 我会很感激。我也认为它对其他人有用,因为我还没有找到 csvs 和这个库的示例。
【问题讨论】:
-
Spark 有一个内置的 CSV 阅读器,SparkSQL 可以与 Hive 交互(不是魔法,它有据可查)。请展示您的尝试
-
投反对票有什么原因吗?
-
您仍然可以edit 提出您的问题以包含您尝试过的内容,并展示您所做的研究,因为正如所写的那样,这并不清楚
-
关于您的数据集,假设性别是二元特征是否安全?如果是这样,您只需要
is_boy = {0, 1}。换句话说,你什么时候有is_boy = 0&is_girl = 0? -
感谢板球 007 的回答
标签: python csv apache-spark pyspark