【发布时间】:2020-05-19 09:24:10
【问题描述】:
我有以下 html 文本,其中“tr”的数量是动态的:
<tr>
<td>Dec 1, 2019 11:12 PM</td>
<td>some text1</td>
<td>some text2</td>
<td>some text3</td>
<td>
<input type=button value="Add" id="add" onCLick="add(12345)" data-toggle="modal" data-target="#add" />
</td>
<td></td>
</tr>
<tr>
<td>Dec 5, 2019 4:33 PM</td>
<td>some text1</td>
<td>some text2</td>
<td>some text3</td>
<td>
<input type=button value="Add" id="add" onCLick="add(12345)" data-toggle="modal" data-target="#add" />
</td>
<td></td>
</tr>
<tr>
<td>Dec 9, 2019 1:06 PM</td>
<td>some text1</td>
<td>some text2</td>
<td>some text3</td>
<td>
<input type=button value="Add" id="add" onCLick="add(12345)" data-toggle="modal" data-target="#add" />
</td>
<td></td>
</tr>
我想得到以下结果:
Dec 1, 2019 11:12 PM | some text1 | some text2 | some text3
Dec 5, 2019 4:33 PM | some text1 | some text2 | some text3
Dec 9, 2019 1:06 PM | some text1 | some text2 | some text3
我尝试使用 sed 进行分组:
sed '/^<tr>/d;:a;N;/^<\/tr>/M!s/\n/ /;ta;P;d'
但它当然不起作用。任何建议如何处理?
【问题讨论】:
-
使用 HTML 解析器。
-
使用 bash 解析 HTML 的坏主意