【发布时间】:2016-04-05 15:08:23
【问题描述】:
目前,我正在尝试使用 nokogiri 获取页面上元素的内部 HTML。但是,我不仅得到了元素的文本,还得到了它的转义序列。有没有办法可以用 nokogiri 压制或删除它们?
require 'nokogiri'
require 'open-uri'
page = Nokogiri::HTML(open("http://the.page.url.com"))
page.at_css("td[custom-attribute='foo']").parent.css('td').css('a').inner_html
这会返回 => "\r\n\t\t\t\t\t\t\t\tTheActuallyInnerContentThatIWant\r\n\t"
最有效和最直接的 nokogiri(或 ruby)方法是什么?
【问题讨论】:
-
什么转义序列?我只看到制表符和换行符,它们是各种文本节点的文本内容。请参阅“minimal reproducible example”。如果没有最少量的 HTML 示例,就很难给出任何详细的答案。