【问题标题】:How to delete a specific line from a file in unix?如何从unix中的文件中删除特定行?
【发布时间】:2012-10-22 11:13:55
【问题描述】:

我有一个非常大的文件,我需要从中删除特定行(行号 941573)

我对这个环境有些陌生,但我一直在谷歌搜索这个问题,但无济于事。

我已经尝试过使用 sed 命令,但它似乎不起作用

sed -e '941572,941574d' filenameX > newfilenameY

我也试过

sed -e '941573d' filenameX > newfilenameY

然而,'newfilenameY' 文件和原始文件 'filenameX' 都仍然包含我要删除的行。这是一个 fastq 文件,尽管我不知道这会有什么不同。就像我说的我是 unix 新手,所以也许我弄错了 sed 命令

【问题讨论】:

  • 我刚刚尝试过这种方法(文件要小得多),而且一切似乎都有效。也许你想重新检查?
  • 我建议您运行 sed -ne '941573p' filenameX 以查看 sed 是否按照您期望的方式计算行号。

标签: unix sed


【解决方案1】:

d 删除一行/行。所以你的第二种方法有效。

$ sed '941573d' input > output

长示例:

% for i in $(seq 1000000)
do
echo i >> input
done
% wc -l input
1000000 input
% sed '941573d' input > output
% wc -l output
999999 output
% diff -u input output                                      :(
--- input       2012-10-22 13:22:41.404395295 +0200
+++ output      2012-10-22 13:22:43.400395358 +0200
@@ -941570,7 +941570,6 @@
 941570
 941571
 941572
-941573
 941574
 941575
 941576

简短示例:

% cat input
foo
bar
baz
qux
% sed '3d' input > output
% cat output             
foo
bar
qux

【讨论】:

  • 这与 OP 正在做的事情有什么不同,除了 -e,(我认为)应该没有区别?
  • @BrianAgnew 没有区别。 OP 的第二种方法有效。
  • 第二种方法不起作用,我一直在尝试整个上午:/
  • 那你的问题不完整。正如您从我的两个示例中看到的那样,d 有效。您的问题缺少哪些信息?
【解决方案2】:

这是从文件中删除一行或多行的方法。

语法:

sed '{[/]<n>|<string>|<regex>[/]}d' <fileName>      
sed '{[/]<adr1>[,<adr2>][/]d' <fileName>
/.../=delimiters
n = line number
string = string found in in line
regex = regular expression corresponding to the searched pattern
addr = address of a line (number or pattern )
d = delete

【讨论】:

    【解决方案3】:

    我生成了一个包含 1000000 行的测试文件,并尝试了您的 sed -e '941573d' filenameX &gt; newfilenameY,它在 Linux 上运行良好。

    也许我们还有其他误解。行号从 1 开始计数,而不是从 0 开始。如果您从零开始计数,您会发现缺少第 941572 行。

    你试过diff filenameX newfilenameY吗?这将突出显示任何意想不到的变化。

    我对 FASTQ 格式了解不多,但您确定我们说的是文本文件行号,而不是序列号?

    一般行长度限制为 4096 字节,您的任何行是否超过了这个限制? (这不太可能,但我认为值得提出这个问题)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-01-12
      • 2018-06-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-17
      • 2020-03-05
      • 2011-06-10
      相关资源
      最近更新 更多