【问题标题】:Can PHPCrawl can be used for scraping websites and how different is from Scrapy?PHPCrawl 可以用于抓取网站吗?与 Scrapy 有什么不同?
【发布时间】:2012-11-22 05:06:28
【问题描述】:

我想抓取几个网站和许多建议Scrapy。它是基于 Python 的,由于我对 PHP 非常熟悉,所以我在寻找替代方案。

我有一个爬虫PHPCrawl。我不确定它是否只是一个爬虫,或者它是否也会提供抓取工具。如果它可以用于抓取——它是否支持 XPath 或正则表达式。

如何与 Python 上的 Scrapy 进行比较。

请建议我最好使用哪个来抓取网站。

谢谢

【问题讨论】:

    标签: xpath web-scraping web-crawler scrapy phpcrawl


    【解决方案1】:

    PHPCrawl 是一个纯粹的爬虫,它“按原样”(连同一些上下文信息)将找到的页面及其源代码提供给用户。因此它速度快,不能使用多进程,并且有大量的配置选项。

    关于 Scrapy 不能说太多,因为到目前为止我还没有使用它。

    【讨论】:

    • 谢谢,但我需要知道的是 - PHPCrawl 可以用于抓取吗?
    【解决方案2】:

    是的,当然。 但正如我所说,PHPCrawl 提供页面源,您必须从中提取要从中提取的数据。

    【讨论】:

    • 如果它提供页面源,我可以使用 DOMObject 并获取详细信息。但是这也可以通过其他方式使用 file_get_contents() 来实现。如果 phpcrawl 只提供页面源并且没有用于使用 xpaths 的内置方法,那么 phpcrawl 的用途是什么...
    • 这是一个网络爬虫,file_get_contents 不是 ;) 如果您只想获取单个页面的来源,那么使用 file_get_contents() 就可以了。
    猜你喜欢
    • 2019-09-13
    • 1970-01-01
    • 1970-01-01
    • 2013-05-09
    • 2020-10-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多