PySpark 从目录中读取多个 txt 文件为 json 格式答案

【问题标题】：PySpark read multiple txt files as json format from a directoryPySpark 从目录中读取多个 txt 文件为 json 格式
【发布时间】：2020-09-19 01:06:00
【问题描述】：

我目前正在分布式数据库类中执行一项任务，用于读取以 json 文件格式编写的推文数据的 txt 文件，并将推文加载到数据帧中（然后通过 pyspark 的 kmeans 算法运行它们）。我有目录但是我不知道特定文本文件的名称（我很确定目录中的所有文件都是与任务相关的文本文件）。

另外因为我应该通过kmeans算法运行它，我如何获得在运行中使用的非数字特征？

任何帮助将不胜感激。

【问题讨论】：

【解决方案1】：

经过更多的挖掘似乎

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

似乎可以解决问题。

【讨论】：