如何使用正则表达式从网页中提取数据？答案

【问题标题】：How do I extract data from a web page with regexes?如何使用正则表达式从网页中提取数据？
【发布时间】：2009-04-30 21:32:11
【问题描述】：

我正在编写一个 curl 脚本来收集有关一些性犯罪者的信息，我已经开发了一个脚本来获取如下所示的链接：

现在，当我们打开此链接时，我想在此页面上的所有字段下获取信息，例如罪犯 ID：、姓氏等，并将其放入我自己的变量中。我的正则表达式很弱，这就是我在这里的原因。还是有别的办法？

有人可以帮我做吗？

【问题讨论】：

【解决方案1】：

phpQuery 非常适合在 PHP 中进行屏幕抓取。它允许您使用与 jQuery 相同的方法访问 DOM。

【讨论】：

【解决方案2】：

【讨论】：

【解决方案3】：

我倾向于同意之前关于 RegEx 不是适合这项工作的工具的海报。如果你只是想要一个快速而肮脏的表达方式，这里是：

Offender Id:.*
.*&amp;nbsp;[0-9]*

注意：您必须在此表达式中包含换行符。另请注意，这非常脆弱，因为如果您正在解析的源发生很大变化，它就会中断。

【讨论】：