【发布时间】:2017-02-22 04:55:57
【问题描述】:
我有一个巨大的文本文件,其中包含以下格式的文本集合:
<text id="1">
blah blah blah blah
blah blah
blah
</text>
<text id="2">
blah blah blah blah
blah blah
blah
</text>
<text id="3">
.....等等。高达 14.400
在某些时候我有这种情况:
<text id="XXX">
blah blah blah blah
blah blah
blah
</text>
**text out of bounds**
<text id="XXX">
blah blah blah blah
blah blah
我的意思是,在文本标签边界之外的某个地方有文本,我需要找到这些文本行并将它们移动到前一个块内,所以得到的结构是这样的:
<text id="XXX">
blah blah blah blah
blah blah
blah
**text moved in bounds**
</text>
<text id="XXX">
blah blah blah blah
blah blah
也就是说,</text>和<text id="....之间不能是文本
【问题讨论】:
-
到目前为止你尝试了什么?你的限制是什么?
-
什么都没有,我的意思是我这样做了,这不是一个真正的解决方案:
-
对不起..:这个:
sed -i -r 's/^(<text id=")/<\/text>\n\1/g' file.txt