【发布时间】:2018-08-02 02:22:12
【问题描述】:
我正在使用 Python,我需要直接通过 python 获取我在文件夹(另存为 HDFS)中的文件名列表,并将文件名(即 .wav 文件)与其路径(我只需要名字)。我在想可能是我可以使用 pyspark 或子进程,但它们只将整个“路径+文件名”作为字节给出,而不是分开的,而且很难分开它们。 如果有人可以帮助我,我将不胜感激。
import subprocess
p = subprocess.Popen("hdfs dfs -ls <directory>",
shell=True,
stdout=subprocess.PIPE,
stderr=subprocess.STDOUT)
for line in p.stdout.readlines():
print(line)
【问题讨论】:
-
嘿!请向我们展示您编写的一些代码:)
-
@KasiaGogolek 完成
-
使用python中提供的HDFS CLI库更方便。它具有类似于 os.walk 的功能,您可以在其中获取所有文件名。
标签: python pyspark subprocess hdfs filenames