【发布时间】:2010-03-31 22:23:18
【问题描述】:
我有一个格式错误的页面要抓取,并且很难为 YQL 获取正确的 XPath。我可以抓取我需要使用的各个字段,例如:
//*[@id="cell_12345"]
但我真正需要做的是返回 ID 以cell_ 开头的所有元素。比如:
//*[@id="cell_"*]
我该怎么做?
另外,如果有人能指出一个好的 XPath 参考资料,那将非常有帮助。
谢谢!
【问题讨论】:
我有一个格式错误的页面要抓取,并且很难为 YQL 获取正确的 XPath。我可以抓取我需要使用的各个字段,例如:
//*[@id="cell_12345"]
但我真正需要做的是返回 ID 以cell_ 开头的所有元素。比如:
//*[@id="cell_"*]
我该怎么做?
另外,如果有人能指出一个好的 XPath 参考资料,那将非常有帮助。
谢谢!
【问题讨论】:
类似
//*[starts-with(@id, 'ceil_')]
应该做得很好。
对于 xpath 引用,一旦您知道语法和轴,任何旧的函数引用都会有所帮助。这是第一个谷歌:http://www.w3schools.com/xpath/xpath_functions.asp
【讨论】: