如何使用 sed、awk 或 grep 从 HTML 表格单元格中提取数据？答案

【问题标题】：How can I extract data from HTML table cells using sed, awk, or grep?如何使用 sed、awk 或 grep 从 HTML 表格单元格中提取数据？
【发布时间】：2013-10-23 21:36:29
【问题描述】：

我有一个 cURL Bash 脚本，它可以访问网站并发布数据，然后将其返回到文本文件。文本文件全部以 HTML 形式返回，我不知道如何从中提取我需要的信息。这是 Info.txt 中的 HTML：

<table cellspacing="1" cellpadding="0" border="0">
<tr><td><img src="/themes/img/status/green.gif" width="12" height="12" border="0"/></td><td><font class="small"><i>October 15, 2013 @ 1:34pm (PST)</i></font></td></tr>
<tr><td><font class="small">MF:&nbsp;&nbsp;</font></td><td><font class="small">PSVBHP9001230079779201</font></td></tr>
<tr><td><font class="small">SN:&nbsp;&nbsp;</font></td><td><font class="small">1354716309166</font></td></tr>
<tr><td><font class="small">ID:&nbsp;&nbsp;</font></td><td><font class="small">800.10</font></td></tr>
</table>

我需要提取这三个值：

PSVBHP9001230079779201
1354716309166
800.10

我已经使用 grep 进行了尝试，但没有取得太大的成功。我似乎无法弄清楚如何只提取我想要的值。我也尝试了多个 sed 和 awk 命令，但最接近的是这个 grep 命令：

$ grep -o '[^ ]*.PSV[^ ]*' Info.txt
<tr><td><font>PSVBHP9001230079779201</font></td></tr>

【问题讨论】：

必填链接：stackoverflow.com/a/1732454/1301972

标签： html regex bash sed awk

【解决方案1】：

解析 HTML，不要grep它

有时，如果出现以下情况，您可以摆脱对 HTML 的 grepping：

您知道输入格式将保持一致，并且
您的数据非常有规律。

您的语料库似乎不符合这些标准，因此请改用 HTML 或 XML 解析器以获得最佳结果。

使用 Nokogiri

Ruby 的Nokogiri gem 和XPath 选择器可以快速解决这个问题。例如：

require 'nokogiri'
doc = Nokogiri::HTML(File.read '/tmp/info.txt');
doc.xpath('//td[2]').map(&:content).reject { |e| e.include? ':' }
#=> ["PSVBHP9001230079779201", "1354716309166", "800.10"]

这将从每行中选择第二个单元格并丢弃任何带有冒号的结果。如果您不确定您想要的字段是否始终位于第二个单元格中，那么您的语料库也将与此替代项正确匹配：

doc.xpath('//td').map(&:content).reject { |e| e.empty? or e.include? ':' }
#=> ["PSVBHP9001230079779201", "1354716309166", "800.10"]

您当然可以调整选择器以匹配对您的语料库的任何更改，或者将结果存储在一个变量中，以便您可以在解析器返回候选字段后优化结果。没有限制，但这应该足以让您入门。

【讨论】：

那么这会在 bash 脚本中运行吗？
@CoreyStadnyk 这个特殊的解决方案需要一些 Ruby 编程和 XPath 或 CSS 选择器的知识。请参阅 my other answer 了解更多面向 shell 的方法。

【解决方案2】：

$ awk -F'[<>]' '/<tr><td><font/{print $15}' file
PSVBHP9001230079779201
1354716309166
800.10

【讨论】：

这似乎也不起作用。它输出一个空行
那么要么您的实际输入与您发布的内容不匹配，要么您使用的是旧的、损坏的 awk（Solaris 上的 /usr/bin/awk）。

【解决方案3】：

使用 XML2 套件

虽然parsing HTML 是规范正确的解决方案，但您当然还有其他选择。其中一个选项是将 HTML 转换为可以使用您选择的工具过滤或拆分的平面格式。 PYX notation 和 xml2 tools 使用的直观但未记录的格式是用面向行的格式表示 HTML 文档的两种方法。对于这个用例，我推荐后者。

扁平化 HTML 示例

鉴于您发布的语料库，以下内容将与 xml2 包中的 html2 实用程序一起使用：

$ html2 < /tmp/info.txt | fgrep /td/ | egrep -v '[:@]' | cut -d= -f2
PSVBHP9001230079779201
1354716309166
800.10

这是由：

将 HTML 转换为面向行的表示，
使用固定字符串 grep 选择表格单元格，
删除包含带有扩展正则表达式的冒号的属性和行，以及
使用 cut 选择节点值。

扁平化 HTML 显然有点小技巧，而且配方可能需要额外的过滤来适应你的真实语料库。另一方面，它在命令行中运行良好，不需要对document type definition、document object model 或XPath 有任何深入了解。它还利用您对 sed、grep、awk、cut 等核心实用程序的了解。

您的里程可能会有所不同。

【讨论】：