【发布时间】:2014-11-03 05:05:08
【问题描述】:
我正在尝试将十几个 100MB 以上的 csv 文件拆分为可管理的较小文件以用于 curl 帖子。
我已经设法做到了,但是有很多临时文件和 IO。这需要永恒。
我希望有人能告诉我一种更有效地做到这一点的方法;最好几乎没有磁盘 io #!/bin/sh
for csv in $(ls *.csv); do
tail -n +2 $csv | split -a 5 -l - $RANDOM.split.
done
# chose a file randomly to fetch the header from
header=$(ls *.csv |sort -R |tail -1 | cut -d',' -f1)
mkdir split
for x in $(/usr/bin/find . -maxdepth 1 -type f -name '*.split.*'); do
echo Processing $x
cat header $x >> split/$x
rm -f $x
done
上述脚本可能无法完全运行。我基本上是通过这些命令的组合来完成它的。
我决定在上传失败的情况下完全使 curl POST 另一个步骤;如果全部发布,我不想丢失数据。但是,如果 curl 出错,可以将数据放入重做文件夹中,那么它可以工作。
#!/bin/sh
# working on a progress indicator as a percentage. Never finished.
count=$(ls -1 | wc -l 2> /dev/null | cut -d' ' -f1)
for file in $(/usr/bin/find . -maxdepth 1 -type f); do
echo Processing $file
curl -XPOST --data-binary @$file -H "Content-Type: text/cms+csv" $1
done
编辑 1 -- 为什么是 RANDOM?因为 split 在拆分下一个文件时会产生与第一个文件完全相同的文件。所以 .. aa ab ac ... 将为每个文件生成。我需要确保 split 生成的每个文件在整个运行过程中都是唯一的
【问题讨论】:
-
您总是需要 I/O 从现有文件写入文件的新版本。使该过程尽可能高效应该是您的重点。照原样,您的问题中有太多“其他”内容。 (为什么是 $RANDOM,这真的是您解决方案的要求,还是您正在试验。其他事情也不清楚)。可能包括输入文件结构的 ascii 艺术,然后是这些输入预期的输出文件。 (只是一个小样本集)。祝你好运。
-
split 在拆分时总是会产生相同的文件。我需要随机确保每个文件拆分都会产生唯一的拆分文件
-
对我来说已经很晚了,我无法从你的口头描述中想象出你想要做什么,但我相信其他人很快就会提出可行的解决方案。祝你好运!
-
此问题已在 Unix.SE 交叉发布:unix.stackexchange.com/questions/165632/…