【问题标题】:Ruby Regex Web ParsingRuby 正则表达式 Web 解析
【发布时间】:2013-11-01 13:10:11
【问题描述】:

我正在编写一个简单的 Ruby 脚本来解析网页中赛马的名称。此正则表达式适用于 http://rubular.com/,但我的脚本在运行时不打印任何内容。

require 'open-uri';

url = "http://www.bloodhorse.com/horse-racing/race/race-results";
connection = open(url);
content = connection.read;

if(content =~ /(<span class="horseName">)(\n)(.*?)(\>)(.*?)(<\/a>)/)
    print $5,"\n";
end

一些页面来源的例子是:

<li value="2">
<span class="horseName">
<a href="/horse-racing/thoroughbred/felonious-fred/2010">Felonious Fred</a>

所以我认为我的脚本应该返回匹配正则表达式的第 5 次捕获,在这种情况下应该是“Felonious Fred”。我做错了什么?

【问题讨论】:

标签: ruby regex url


【解决方案1】:

如果你要报废一个网页,我建议你使用 Nokogiri gem。将为您省去正则表达式的麻烦。

【讨论】:

    猜你喜欢
    • 2012-10-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-20
    相关资源
    最近更新 更多