【发布时间】:2012-10-09 03:15:07
【问题描述】:
我使用 Mechanize 加载了一个页面:
url = 'http://www.blah.com'
agent = Mechanize.new
page = agent.get(url)
并尝试使用 XPath 选择器访问元素:
found = page.at('/html/body/table')
它返回nil,因为我无法控制的 HTML 有一个不应该出现的开始标签:
<html>
<body>
<tr>
<table>
. . .
当浏览器在现实生活中呈现页面时,Firefox 称之为“杂散开始标记”,它会被忽略(Firefox 给了我忽略它的 xpath),但 Nokogiri 看不到任何超出额外的<tr> .
有什么办法可以清除这样的挂标签的 HTML 吗?
【问题讨论】: