【发布时间】:2020-09-19 01:06:00
【问题描述】:
我目前正在分布式数据库类中执行一项任务,用于读取以 json 文件格式编写的推文数据的 txt 文件,并将推文加载到数据帧中(然后通过 pyspark 的 kmeans 算法运行它们)。 我有目录但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。
另外因为我应该通过kmeans算法运行它,我如何获得在运行中使用的非数字特征?
任何帮助将不胜感激。
【问题讨论】:
标签: python json pyspark k-means azure-databricks