【发布时间】:2011-10-16 05:19:31
【问题描述】:
我想使用 Python 脚本从 HTML 表中提取数据并将其保存为变量(如果它们存在,我可以稍后在加载它们后在同一脚本中使用)到单独的文件中。此外,我希望脚本忽略表的第一行(组件、状态、时间/错误)。我宁愿不使用外部库。
新文件的输出应该是这样的:
SAVE_DOCUMENT_STATUS = "OK"
SAVE_DOCUMENT_TIME = "0.408"
GET_DOCUMENT_STATUS = "OK"
GET_DOCUMENT_TIME = "0.361"
...
下面是脚本的输入:
<table border=1>
<tr>
<td><b>Component</b></td>
<td><b>Status</b></td>
<td><b>Time / Error</b></td>
</tr>
<tr><td>SAVE_DOCUMENT</td><td>OK</td><td>0.408 s</td></tr>
<tr><td>GET_DOCUMENT</td><td>OK</td><td>0.361 s</td></tr>
<tr><td>DVK_SEND</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>DVK_RECEIVE</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>GET_USER_INFO</td><td>OK</td><td>0.135 s</td></tr>
<tr><td>NOTIFICATIONS</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>ERROR_LOG</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>SUMMARY_STATUS</td><td>OK</td><td>0.913 s</td></tr>
</table>
我尝试在 bash 中执行此操作,但由于我需要将 *_TIME 变量与最大时间进行比较,因此它失败了,因为它们是浮点数。
【问题讨论】:
-
“还有一件事,我不想使用外部库”。史诗般的失败。你真的必须使用美丽的汤。这是最适合这种事情的。
-
好吧,如果没有其他出路,那我就用美汤吧:)
-
“来自 HTML”是 Beautiful Soup 的代名词。