【发布时间】:2011-02-01 03:51:27
【问题描述】:
我正在尝试解析网页以获取来自论坛的帖子。
每条消息的开头都以如下格式开始
<div id="post_message_somenumber">
我只想拿到第一个
我在yql中尝试xpath='//div[starts-with(@id, '"post_message_')]'没有成功
我还在学习这个,谁有建议
【问题讨论】:
-
好问题,+1。有关问题的两个可能原因和解决方案,请参阅我的答案。
-
问题在于引号和(可能是次要的)
id的值(它不是以双引号开头)。你想要xpath='//div[starts-with(@id, "post_message_")]' -
我不知道 yql 是什么,但我怀疑问题在于如何编写包含引号的 XPath 表达式,然后将其嵌入或转义到宿主语言环境中。
-
感谢您的回复。 Salathe,你的建议奏效了。 YQL 是 yahoo 查询语言,与 yahoo 管道一起,对于不懂编程的人来说是学习如何解析网页、组合 rss 提要等的好方法。