【发布时间】:2012-10-31 21:26:26
【问题描述】:
我需要编写一个 shell 脚本来读取一个 html 文件 sample.html 并根据另一个表列从一个表列中提取数据。例如,这是 HTML 代码:
<table style="BORDER-COLLAPSE: collapse"
border="0" bordercolor="#000000"
cellpadding="3" cellspacing="0" width="100%" height="200">
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6690.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
admin</div>
</td>
</tr>
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6691.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
secondary </div>
</td>
</tr>
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6692.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
primary </div>
</td>
</tr>
</table>
假设我想确定“admin”的 URL,那么结果将是 core6690.myserverdomain.com;如果我的输入是“primary”,那么输出将是“core6692.myserverdomain.com”等等......
HTML 页面有更多数据、页眉标签、页脚等,但我要查找的重要内容放在一个表中,其结构与我在代码中列出的完全相同...除了它有更多的行,不一定像本例那样只有 3 行。
我在这个网站上看到了 seg、grep、正则表达式、awk 和其他工具的相关答案,但是它们都没有足够接近我正在寻找的东西......而且我对任何一个都没有太多经验修改并使其适合我的需要的方法。
有什么建议吗?提前致谢。
【问题讨论】:
-
不要指望有人回答,提供 bash 的帮助。你应该使用 perl 模块进行 HTML 解析和 HTML 表格提取,真的。当然,理论上这也可以在 bash 和 sed 中完成,但是这种情况下的 perl 解析方法会更好,真的。
-
感谢 Piotr Wadas,但是我有一个限制,我必须按照当前的情况进行操作。
-
必须是纯 bash,还是可以使用额外的工具?如果不是perl,你可以使用awk吗? PHP 呢?请注意,任何不涉及 DOM 解析器的解决方案(如在 perl 或 PHP 或 Python 中)都非常容易被破解。您需要确保您没有将自己列为作者。这种事情不应该出现在你的简历上
-
嗨@ghoti,感谢您的cmets。我理解将工具集限制为操作系统中的 bash 或预编译实用程序的含义......以及关于作者/CV/等,它们与问题或其上下文无关......这个问题是基于纯粹的学术术语挑战。我可以选择 python、perl、PHP 甚至 Java 的路径,但这不是当前上下文中问题的重点。