使用 xpath 解析 bash XHTML答案

【问题标题】：bash XHTML parsing using xpath使用 xpath 解析 bash XHTML
【发布时间】：2011-06-26 11:05:22
【问题描述】：

我正在编写一个小脚本来学习如何解析 XHTML 网页。以下命令：

cat q?s=goog.xhtml | xpath '//span[@id="yfs_l10_goog"]'

Found 2 nodes:
-- NODE --
<span id="yfs_l10_goog">624.50</span>-- NODE --
<span id="yfs_l10_goog">624.50</span>

我该怎么做：

需要编写我的命令才能仅提取值624.50 吗？
我需要做什么才能只提取一次？

我正在解析的源页面：http://finance.yahoo.com/q?s=goog

【问题讨论】：

这更像是一个 xpath 问题，不是吗？
确实如此。我想使用 xpath 让它工作
更新帖子标题更清晰

标签： bash xpath xml-parsing

【解决方案1】：

编辑 2：

试试这个：

xpath -q -e '//span[@id="yfs_l10_goog"][1]/text()'

编辑：

通过管道输出您的输出：

sed -n '/span/{s/<span[^<]*>\([^<]*\)<.*/\1/;p;q}'

原答案：

使用xmlstarlet：

echo -e '<foo><span id="yfs_l10_goog">624.50</span>\n<bar>xyz</bar><span id="yfs_l10_goog">555.50</span>\n<span id="yfs_l10_goog">123.50</span></foo>' | 
    xmlstarlet sel -t -v "//span[@id='yfs_l10_goog']"

查询结果：

624.50

echo 的结果：

<foo><span id="yfs_l10_goog">624.50</span>
<bar>xyz</bar><span id="yfs_l10_goog">555.50</span>
<span id="yfs_l10_goog">123.50</span></foo>

xml fo 的结果：

<?xml version="1.0"?>
<foo>
  <span id="yfs_l10_goog">624.50</span>
  <bar>xyz</bar>
  <span id="yfs_l10_goog">555.50</span>
  <span id="yfs_l10_goog">123.50</span>
</foo>

其他查询：

$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][1]"
624.50
$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][3]"
123.50
$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][last()]"
123.50

【讨论】：

嗨丹尼斯，我想使用 xpath。
@Baba：我认为该实用程序只有非常基本的功能。请参阅我编辑的答案。
嗯，我相信 xpath 允许通过选择节点更直接。 w3schools 有一些示例，但我无法简化它们以符合我的要求：w3schools.com/XPath/xpath_examples.asp
得到：无法在 /usr/share/perl5/XML/XPath.pm 第 53 行打开文件 '-q'。不确定这意味着什么
@Baba：你的版本好像和我的不一样。试试不带-q（可能不带-e）。