【发布时间】:2012-09-07 05:13:30
【问题描述】:
http://www.example.com/books?_pop=mheader
什么是正则表达式来匹配这个和任何在 URL 中有“书”作为模式匹配之一的 URL?该站点有一个书籍类别和该类别下的各种其他子类别。如何遍历所有 URL 以搜索 book ?
require 'anemone'
Pattern = %r[(\/books)*]
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_pages_like(Pattern) do |page|
puts page.url
end
end
【问题讨论】:
-
如果您使用的是
%r[...],那么您将不需要反斜杠。另请注意,像您的模式这样的常量应该是ALL_CAPS,类应该是MixedCase。