【发布时间】:2021-09-06 11:31:21
【问题描述】:
我想在 Azure Databricks 上的笔记本中使用 PySpark 创建一个简单的数据框。数据框只有 3 列:
- TimePeriod - 字符串
- StartTimeStanp - 类似“timestamp”的数据类型或可以以“HH:MM:SS:MI”* 形式保存时间戳(无日期部分)的数据类型
- EndTimeStanp - 类似“timestamp”的数据类型或可以以“HH:MM:SS:MI”* 形式保存时间戳(无日期部分)的数据类型
*小时:分钟:秒:毫秒,例如'15:59:59:59'
Example values for one row:
TimePeriod = "00:00:00:00 -> 15:59:59:59"
StartTimeStamp = 00:00:00:00
EndTimeStamp = 15:59:59:59
Example values for secondone row:
TimePeriod = "16:00:00:00 -> 18:59:59:59"
StartTimeStamp = 16:00:00:00
EndTimeStamp = 18:59:59:59
其他行未显示
如果可能,我希望将时间戳列存储为以毫秒为单位的“时间戳”,而不是字符串。 'TimePeriod' 列可以作为字符串使用。
我是 PySpark 的新手,需要帮助编写代码来构建这个小数据框。如果答案不能使用 Panadas DF 那会很好。
【问题讨论】:
标签: python-3.x pyspark azure-databricks