【发布时间】:2011-09-29 06:48:00
【问题描述】:
我正在尝试从网页中获取表格内容。我只需要内容,但不需要标签<tr></tr>。我什至不需要“tr”或“td”只是内容。例如:
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
我也想把这样的第一列输出放在一个新的 csv 文件中 列 1,信息 1,信息 2,信息 3 coumn2,info1,info2,info3
我尝试 sed 删除模式 <tr> <td> 但是当我获取表时还有其他标签,如 <color> <span> 等,所以我想要删除所有标签;简而言之,所有带有 的东西。
【问题讨论】:
-
内容的规律性如何?您也许可以使用
lynx抓取页面并将其转换为文本,然后解析纯文本。很难说没有更多细节,屏幕抓取往往是各种丑陋黑客之间的选择。 -
好的,这解决了第一个问题 sed -e 's/<.>//g' input 。并且对于上面的评论,我得到了页面并只刮掉了表格部分。所以文件只包含干净的表标签和数据。类似于考试时间表例程。