PHPCrawl 可以用于抓取网站吗？与 Scrapy 有什么不同？答案

【问题标题】：Can PHPCrawl can be used for scraping websites and how different is from Scrapy?PHPCrawl 可以用于抓取网站吗？与 Scrapy 有什么不同？
【发布时间】：2012-11-22 05:06:28
【问题描述】：

我想抓取几个网站和许多建议Scrapy。它是基于 Python 的，由于我对 PHP 非常熟悉，所以我在寻找替代方案。

我有一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它是否也会提供抓取工具。如果它可以用于抓取——它是否支持 XPath 或正则表达式。

如何与 Python 上的 Scrapy 进行比较。

请建议我最好使用哪个来抓取网站。

谢谢

【问题讨论】：

标签： xpath web-scraping web-crawler scrapy phpcrawl

【解决方案1】：

PHPCrawl 是一个纯粹的爬虫，它“按原样”（连同一些上下文信息）将找到的页面及其源代码提供给用户。因此它速度快，不能使用多进程，并且有大量的配置选项。

关于 Scrapy 不能说太多，因为到目前为止我还没有使用它。

【讨论】：

谢谢，但我需要知道的是 - PHPCrawl 可以用于抓取吗？

【解决方案2】：

是的，当然。但正如我所说，PHPCrawl 提供页面源，您必须从中提取要从中提取的数据。

【讨论】：

如果它提供页面源，我可以使用 DOMObject 并获取详细信息。但是这也可以通过其他方式使用 file_get_contents() 来实现。如果 phpcrawl 只提供页面源并且没有用于使用 xpaths 的内置方法，那么 phpcrawl 的用途是什么...
这是一个网络爬虫，file_get_contents 不是 ;) 如果您只想获取单个页面的来源，那么使用 file_get_contents() 就可以了。