【发布时间】:2014-10-30 07:42:04
【问题描述】:
我有页面:
<body>
<div>
<a id="123">text_url</a>
</div>
<body>
我想将元素“//div/a”作为纯 html 文本获取。
<a id="123">text_url</a>
我该怎么做?
【问题讨论】:
-
从 XPath 的角度来看,
//div/a已经指向<a id="123">text_url</a>。其余的取决于 XPath 主机。您使用的 XPath 引擎是什么?也许是编程语言和 Xpath 库? -
python 语言,库 - lxml,抓取。据我了解,XPath 标准不支持这种常用方法?
-
我不懂python,也许别人可以带你走。通常,XPath 库提供了一种获取节点标记的方法。例如在 .NET 中,我可以执行以下操作:
var node = xml.SelectSingleNode("//div/a"); var nodesMarkup = node.OuterHtml; -
看,这不是 XPath 的问题,据我所知,这是关于库 API