【发布时间】:2018-05-03 20:34:37
【问题描述】:
我想在一个 html 块周围包裹一个新的<tr>,但是 html 没有任何唯一的标签,我可以用它来区分标签的开头和结尾。我是使用 BeautifulSoup 的新手,一般来说,当我操纵汤对象时,它会操纵整个标签。因此,我发现很难跨多个标签工作,这些标签除了文本之外没有唯一标识。 html看起来像
<td>
<th>Id</th>
<td>1234</td>
<th>something</th>
<td>some text</td>
<th>Id</th>
<td>2345</td>
<th>anything</th>
<td>other text</td>
</td>
我希望每次看到 <th>Id</th> 时都将其包装在 <tr> 标记中,使其看起来像:
<td>
<tr>
<th>Id</th>
<td>1234</td>
<th>something</th>
<td>some text</td>
</tr>
<tr>
<th>Id</th>
<td>2345</td>
<th>anything</th>
<td>other text</td>
</tr>
</td>
我也一直在尝试正则表达式,但由于 Id 是唯一一致的表头,而所有其他表头也由 <th> 标签设置,所以我没有得到正确的组合。
【问题讨论】:
标签: python html beautifulsoup