【发布时间】:2019-03-23 04:22:23
【问题描述】:
我正在通过 HD Insight 按需集群运行 Hive QL,该集群执行以下操作
- 从 Hive 视图假脱机数据
- 在 Blob 存储容器中按名称 abcd 创建一个文件夹 命名为 XYZ
- 将视图数据存储在 abcd 文件夹内的文件中
但是,当运行 hive QL 时,会在 abcd 文件夹之外创建一个名为 abcd 的空文件
知道为什么会发生这种情况以及我们如何阻止它发生。请推荐
谢谢,
苏利亚
【问题讨论】:
-
我在安装到 spark 集群数据块上的 blob 存储时遇到了同样的问题。它似乎是通过通过 sh 或 shutil 而不是通过 dbutils 访问(或写入,两者都发生)dbfs 来触发的。有谁知道他为什么会发生?以及如何预防?通过 sh 看不到空文件,因此可能与内核处理文件系统操作的方式有关?
-
我也被这个问题困扰,我们在spark中使用它,这个问题破坏了我们的spark历史服务器,文件夹中的文件名为空。
标签: azure-blob-storage hiveql azure-hdinsight