【发布时间】:2011-02-01 14:01:01
【问题描述】:
我正在使用 PHP 来抓取网站并收集一些数据。这一切都在不使用正则表达式的情况下完成。我正在使用 php 的 explode() 方法来查找特定的 HTML 标签。
如果网站的结构发生变化(CSS、HTML),那么爬虫可能会收集到错误的数据。所以问题是——我怎么知道 HTML 结构是否发生了变化?如何在将任何数据存储到我的数据库之前识别这一点,以避免存储错误的数据。
【问题讨论】:
标签: php screen-scraping web-scraping