【问题标题】:PySpark read multiple txt files as json format from a directoryPySpark 从目录中读取多个 txt 文件为 json 格式
【发布时间】:2020-09-19 01:06:00
【问题描述】:

我目前正在分布式数据库类中执行一项任务,用于读取以 json 文件格式编写的推文数据的 txt 文件,并将推文加载到数据帧中(然后通过 pyspark 的 kmeans 算法运行它们)。 我有目录但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。

另外因为我应该通过kmeans算法运行它,我如何获得在运行中使用的非数字特征?

任何帮助将不胜感激。

【问题讨论】:

    标签: python json pyspark k-means azure-databricks


    【解决方案1】:

    经过更多的挖掘似乎

    dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")
    

    似乎可以解决问题。

    【讨论】:

      猜你喜欢
      • 2020-12-02
      • 1970-01-01
      • 1970-01-01
      • 2016-09-12
      • 2015-04-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多