【问题标题】:How do I extract data from a web page with regexes?如何使用正则表达式从网页中提取数据?
【发布时间】:2009-04-30 21:32:11
【问题描述】:

我正在编写一个 curl 脚本来收集有关一些性犯罪者的信息,我已经开发了一个脚本来获取如下所示的链接:

http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断网址)

现在,当我们打开此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有别的办法?

有人可以帮我做吗?

【问题讨论】:

    标签: php regex screen-scraping


    【解决方案1】:

    phpQuery 非常适合在 PHP 中进行屏幕抓取。它允许您使用与 jQuery 相同的方法访问 DOM。

    【讨论】:

      【解决方案2】:

      【讨论】:

        【解决方案3】:

        我倾向于同意之前关于 RegEx 不是适合这项工作的工具的海报。如果你只是想要一个快速而肮脏的表达方式,这里是:

        Offender Id:.*
        .* [0-9]*
        

        注意: 您必须在此表达式中包含换行符。另请注意,这非常脆弱,因为如果您正在解析的源发生很大变化,它就会中断。

        【讨论】:

          猜你喜欢
          • 2015-01-05
          • 2011-06-06
          • 2017-08-23
          • 2011-09-27
          • 1970-01-01
          • 2013-07-30
          • 2011-06-26
          • 2011-04-21
          • 2010-11-27
          相关资源
          最近更新 更多