【发布时间】:2013-11-03 11:13:11
【问题描述】:
我有一个大文件,没有换行符或回车符。该文件来自 HTML,除了我想要转换为换行符 (/n) 的标签之外,我已经删除了所有标签。使用 AWK 或 SED 有什么快速简便的方法来做到这一点?我想 AWKSED 也是一种选择。
【问题讨论】:
-
告诉我真的没有什么东西叫
AWKSED!!!!发布一些示例输入和预期输出。
标签: html windows sed awk newline
我有一个大文件,没有换行符或回车符。该文件来自 HTML,除了我想要转换为换行符 (/n) 的标签之外,我已经删除了所有标签。使用 AWK 或 SED 有什么快速简便的方法来做到这一点?我想 AWKSED 也是一种选择。
【问题讨论】:
AWKSED!!!!发布一些示例输入和预期输出。
标签: html windows sed awk newline
这样的事情应该可以工作:
sed 's/<[^>]*>/\n/g' file
这意味着:用换行符替换所有以< 开头的文本,后跟不定数量的不是> 的字符,以及以> 结尾的字符。
【讨论】:
g 命令和[^>] 进行非贪婪匹配,这将使用换行符更新所有匹配项
</tr>而不是/tr,所以它会与我发布的命令匹配(我最初的答案是贪婪匹配,所以它只适用于行中的单个标签)
[windows] 标记了这个问题。如果是这种情况,也许您应该使用将\n 识别为换行符的编辑器打开输出,或者将命令更改为sed 's/<[^>]*>/\r\n/g' file