【发布时间】:2016-06-10 21:46:01
【问题描述】:
我有一个名为“pd_df”的熊猫数据框。
我想修改它的列,所以我这样做:
import pandas as pd
pd_df['notification_dt'] = pd.to_datetime(pd_df['notification_dt'], format="%Y-%m-%d")
有效。
在同一个数据库上,我创建了一个名为“spark_df”的 spark 数据框
我希望在它的列上使用相同的函数 (pd.to_datatime) 来执行相同的操作。所以我就这么做了。
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import TimestampType
udf = UserDefinedFunction(lambda x: pd.to_datetime(x, format="%Y-%m-%d"), TimestampType())
spark_df2 = spark_df.withColumn("notification_dt1", (udf(spark_df["notification_dt"])))
据我说,它应该可以工作。然而在
spark_df.show()
大约一分钟后我遇到以下错误:
【问题讨论】:
标签: python pandas apache-spark pyspark