【发布时间】:2016-08-08 11:33:14
【问题描述】:
我有一个包含大约 20k 行的 DataFrame。
我想在数据集中随机删除 186 行。
为了了解上下文 - 我正在测试缺失数据的分类模型,并且每一行都有一个 unix 时间戳。 186行对应3秒(每秒有62行数据)
我的目标是,当数据流式传输时,数据很可能会 失踪几秒钟。我正在从时间窗口中提取特征,所以我想看看丢失的数据是如何影响模型性能的。
我认为最好的方法是转换为rdd 并使用filter 函数,类似这样,并将逻辑放入过滤器函数中。
dataFrame.rdd.zipWithIndex().filter(lambda x: )
但我被逻辑困住了——我该如何实现呢? (使用 PySpark)
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql rdd spark-dataframe