【问题标题】:Matching URL structures with Anemone将 URL 结构与 Anemone 匹配
【发布时间】:2013-09-04 10:02:15
【问题描述】:

现在,我正在对 Anemone 执行以下操作:

Anemone.crawl("http://www.findbrowsenodes.com/", :delay => 3) do |anemone|
  anemone.on_every_page do | page |

但我想做

Anemone.crawl("http://www.findbrowsenodes.com/", :delay => 3) do |anemone|
   anemone.on_pages_like() do | page |

而不是只从这样的 URL 抓取:

http://www.findbrowsenodes.com/us/Apparel/1036682 http://www.findbrowsenodes.com/us/Apparel/1040664 http://www.findbrowsenodes.com/us/ArtsAndCrafts/2617942011 http://www.findbrowsenodes.com/us/Baby/165797011

有什么想法吗?

【问题讨论】:

    标签: ruby anemone


    【解决方案1】:

    你可以使用这样的正则表达式

    /http:\/\/www.findbrowsenodes.com\/us\/.+\/[\d]*/
    

    【讨论】:

    • 感谢它的工作!但只有一件事,一开始它包含这个 URL:http://www.findbrowsenodes.com/us/p/what-are-browse-nodes 如何修改正则表达式以避免这种情况?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-01-11
    • 2013-05-05
    • 2022-11-10
    • 2016-06-14
    • 2012-04-09
    • 2023-03-22
    • 1970-01-01
    相关资源
    最近更新 更多