【发布时间】:2020-04-25 23:17:41
【问题描述】:
csv 文件是:
#+----+-----------+-------------------+
#|col1| col2| timestamp|
#+----+-----------+-------------------+
#| 0|Town Street|01-02-2017 06:01:00|
#| 0|Town Street|01-02-2017 06:03:00|
#| 0|Town Street|01-02-2017 06:05:00|
#| 0|Town Street|01-02-2017 06:06:00|
#| 0|Town Street|02-02-2017 10:01:00|
#| 0|Town Street|02-02-2017 10:05:00|
#+----+-----------+-------------------+
比较每个日期的时间,看看是否有 5 分钟的差异,如果他们是数他们
输出:
#+----+-----------+-------------------+
#|col1| col2| timestamp|
#+----+-----------+-------------------+
#| 0|Town Street|01-02-2017 06:01:00|
#| 0|Town Street|01-02-2017 06:03:00|
#| 0|Town Street|01-02-2017 06:05:00|
#| 0|Town Street|01-02-2017 06:06:00|
#| 0|Town Street|02-02-2017 10:01:00|
#| 0|Town Street|02-02-2017 10:05:00|
#+----+-----------+-------------------+
立即编码:
from pyspark.sql import SQLContext
import pyspark.sql.functions as F
def my_main(sc, my_dataset_dir):
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(my_dataset_dir,sep=';').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['status','title','datetime'])
这段代码只给出了 5 分钟窗口的空结果。
【问题讨论】:
标签: python csv pyspark windowing