【发布时间】:2016-05-20 00:47:46
【问题描述】:
我从 Hive 表中获取一些数据并插入数据框:
df = sqlContext.table('mydb.mytable')
我正在过滤一些无用的值:
df = df[df.myfield != "BADVALUE"]
出于代码设计原因,我想在数据框上执行此操作,而不是作为 select 查询。我注意到,即使在我过滤了数据帧之后,似乎每次我在 df 上操作时都会执行来自 Hive 的查询和加载操作:
df.groupBy('myfield').mean()
这需要很长时间,就像我没有过滤数据框一样。有没有办法对其进行深拷贝以提高性能并减少内存占用?
【问题讨论】:
标签: python apache-spark pyspark