Bash 脚本通过删除最后访问的文件来限制目录大小答案

【问题标题】：Bash script to limit a directory size by deleting files accessed lastBash 脚本通过删除最后访问的文件来限制目录大小
【发布时间】：2012-07-22 00:29:02
【问题描述】：

我之前使用过一个简单的 find 命令来删除最近 x 天（在本例中为 3 天）内未访问的 tar 文件：

find /PATH/TO/FILES -type f -name "*.tar" -atime +3 -exec rm {} \;

我现在需要按访问日期的顺序删除来改进这个脚本，而且我的 bash 写作技巧有点生疏。这是我需要它做的事情：

检查目录 /PATH/TO/FILES 的大小
如果 1) 中的大小大于 X 大小，则按访问日期获取文件列表
按顺序删除文件，直到大小小于 X

这里的好处是缓存和备份目录，我只会删除我需要将其保持在限制范围内的内容，而如果一天特别大，简化的方法可能会超出大小限制。我猜我需要使用 stat 和 bash for 循环？

【问题讨论】：

标签： bash shell for-loop

【解决方案1】：

我改进了 brunner314 的示例并修复了其中的问题。

这是我正在使用的工作脚本：

#!/bin/bash
DELETEDIR="$1"
MAXSIZE="$2" # in MB
if [[ -z "$DELETEDIR" || -z "$MAXSIZE" || "$MAXSIZE" -lt 1 ]]; then
    echo "usage: $0 [directory] [maxsize in megabytes]" >&2
    exit 1
fi
find "$DELETEDIR" -type f -printf "%T@::%p::%s\n" \
| sort -rn \
| awk -v maxbytes="$((1024 * 1024 * $MAXSIZE))" -F "::" '
  BEGIN { curSize=0; }
  { 
  curSize += $3;
  if (curSize > maxbytes) { print $2; }
  }
  ' \
  | tac | awk '{printf "%s\0",$0}' | xargs -0 -r rm
# delete empty directories
find "$DELETEDIR" -mindepth 1 -depth -type d -empty -exec rmdir "{}" \;

【讨论】：

非常好。只是缺少一些参数完整性检查（例如：如果“$2”不是数字（缺少，即空或其他）：最后一个测试（[“$MAXSIZE”-lt 1]）将是 ko，所以“如果”不会退出 1 ......并且“任何事情”都可能发生。应该有 2 美元的前一行测试其正确格式（至少 1 位，第一个非零）：@987654322 @.另一种方法是：将||改为&&，-z变为-n，-lt变为-ge，在“else”中退出
这是一件精美的艺术品！太好了！

【解决方案2】：

这是我想出的一个简单易读和理解的方法：

DIRSIZE=$(du -s /PATH/TO/FILES | awk '{print $1}')
if [ "$DIRSIZE" -gt "$SOMELIMIT" ]
  then
    for f in `ls -rt --time=atime /PATH/TO/FILES/*.tar`; do
    FILESIZE=`stat -c "%s" $f`
    FILESIZE=$(($FILESIZE/1024))

    DIRSIZE=$(($DIRSIZE - $FILESIZE))
    if [ "$DIRSIZE" -lt "$LIMITSIZE" ]; then
        break
    fi
done
fi

【讨论】：

我认为这个脚本是一个好的开始，但它实际上并没有回答这个问题。您询问如何按顺序删除文件，以使目录大小低于阈值。您在这里的回答似乎并没有真正删除任何内容，它只是对文件进行排序并循环访问它们。看起来您在这里的某个地方缺少一个“rm”。

【解决方案3】：

我不需要使用循环，只需仔细应用 stat 和 awk。下面详细解释，先上代码：

find /PATH/TO/FILES -name '*.tar' -type f \
| sed 's/ /\\ /g' \
| xargs stat -f "%a::%z::%N" \
| sort -r \
| awk '
  BEGIN{curSize=0; FS="::"}
  {curSize += $2}
  curSize > $X_SIZE{print $3}
  '
| sed 's/ /\\ /g' \
| xargs rm

请注意，这是一个合乎逻辑的命令行，但为了保持理智，我将其拆分。

它以基于上述命令的查找命令开始，没有将其限制为超过 3 天的文件的部分。它通过管道将其传递给 sed，以转义 find 返回的文件名中的任何空格，然后使用 xargs 对所有结果运行 stat。 -f "%a::%z::%N" 告诉 stat 要使用的格式，第一个字段是上次访问的时间，第二个字段是文件大小，第二个字段是文件名第三。我使用 '::' 分隔字段，因为这样处理文件名中的空格更容易。 Sort 然后在第一个字段上对它们进行排序，使用 -r 来反转排序。

现在我们有一个我们感兴趣的所有文件的列表，按照从最近访问到最早访问的顺序排列。然后 awk 脚本在遍历列表时将所有大小相加，并在超过 $X_SIZE 时开始输出它们。不以这种方式输出的文件将被保留，其他文件名再次转至 sed 以转义任何空格，然后转至 xargs，后者运行 rm 它们。

【讨论】：

此解决方案无效。我改进了脚本并将结果作为单独的答案发布。