【问题标题】:bash XHTML parsing using xpath使用 xpath 解析 bash XHTML
【发布时间】:2011-06-26 11:05:22
【问题描述】:

我正在编写一个小脚本来学习如何解析 XHTML 网页。以下命令:

cat q?s=goog.xhtml | xpath '//span[@id="yfs_l10_goog"]'

返回:

Found 2 nodes:
-- NODE --
<span id="yfs_l10_goog">624.50</span>-- NODE --
<span id="yfs_l10_goog">624.50</span>

我该怎么做:

  • 需要编写我的命令才能仅提取值624.50 吗?

  • 我需要做什么才能只提取一次?

我正在解析的源页面:http://finance.yahoo.com/q?s=goog

【问题讨论】:

  • 这更像是一个 xpath 问题,不是吗?
  • 确实如此。我想使用 xpath 让它工作
  • 更新帖子标题更清晰

标签: bash xpath xml-parsing


【解决方案1】:

编辑 2:

试试这个:

xpath -q -e '//span[@id="yfs_l10_goog"][1]/text()'

编辑:

通过管道输出您的输出:

sed -n '/span/{s/<span[^<]*>\([^<]*\)<.*/\1/;p;q}'

原答案:

使用xmlstarlet

echo -e '<foo><span id="yfs_l10_goog">624.50</span>\n<bar>xyz</bar><span id="yfs_l10_goog">555.50</span>\n<span id="yfs_l10_goog">123.50</span></foo>' | 
    xmlstarlet sel -t -v "//span[@id='yfs_l10_goog']"

查询结果:

624.50

echo 的结果:

<foo><span id="yfs_l10_goog">624.50</span>
<bar>xyz</bar><span id="yfs_l10_goog">555.50</span>
<span id="yfs_l10_goog">123.50</span></foo>

xml fo 的结果:

<?xml version="1.0"?>
<foo>
  <span id="yfs_l10_goog">624.50</span>
  <bar>xyz</bar>
  <span id="yfs_l10_goog">555.50</span>
  <span id="yfs_l10_goog">123.50</span>
</foo>

其他查询:

$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][1]"
624.50
$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][3]"
123.50
$ echo -e '...' | xmlstarlet sel -t -v "//span[@id='yfs_l10_goog'][last()]"
123.50

【讨论】:

  • 嗨丹尼斯,我想使用 xpath。
  • @Baba:我认为该实用程序只有非常基本的功能。请参阅我编辑的答案。
  • 嗯,我相信 xpath 允许通过选择节点更直接。 w3schools 有一些示例,但我无法简化它们以符合我的要求:w3schools.com/XPath/xpath_examples.asp
  • 得到:无法在 /usr/share/perl5/XML/XPath.pm 第 53 行打开文件 '-q'。不确定这意味着什么
  • @Baba:你的版本好像和我的不一样。试试不带-q(可能不带-e)。
猜你喜欢
  • 1970-01-01
  • 2012-04-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多