【发布时间】:2021-09-13 04:54:48
【问题描述】:
我每天都将我的文件系统信息加载到 Hive,我只想获取所有目录大小。
我有一张这样的桌子
Path Size Date
/ 0 01-07-2021
/tmp 0 01-07-2021
/tmp/file1 2 01-07-2021
/tmp/file2 2 01-07-2021
/tmp/dir1 0 01-07-2021
/tmp/dir1/file3 3 01-07-2021
/opt/ 0 01-07-2021
/opt/file1 2 01-07-2021
/opt/dir1 0 01-07-2021
/opt/dir1/file2 3 01-07-2021
/opt/dir2/ 0 01-07-2021
/opt/dir2/file3 4 01-07-2021
...
...
...
/ 0 02-07-2021
/tmp 0 02-07-2021
/tmp/file1 2 02-07-2021
/tmp/file2 2 02-07-2021
/tmp/dir1 0 02-07-2021
/tmp/dir1/file3 3 02-07-2021
/opt/ 0 02-07-2021
/opt/file1 2 02-07-2021
/opt/dir1 0 02-07-2021
/opt/dir1/file2 3 02-07-2021
/opt/dir2/ 0 02-07-2021
/opt/dir2/file3 4 02-07-2021
我想要一个输出查询或像这样创建一个新表。
Path Size Date
/ 16 01-07-2021
/tmp 7 01-07-2021
/tmp/dir1 3 01-07-2021
/opt 9 01-07-2021
/opt/dir1 3 01-07-2021
/opt/dir2 4 01-07-2021
...
...
...
/ 16 02-07-2021
/tmp 7 02-07-2021
/tmp/dir1 3 02-07-2021
/opt 9 02-07-2021
/opt/dir1 3 02-07-2021
/opt/dir2 4 02-07-2021
我是 SQL 新手,请帮助我。谢谢。
【问题讨论】:
-
如果这是针对 hive 的,为什么还要使用
mysql标签? -
MySQL 也可以,只要我能把这个想法翻译成 Hive。任何输入都是好的。
-
并非 mysql 中的所有内容都转换为 hive,反之亦然。如果要求是在hive中运行,而不是在mysql中,请去掉mysql标签。