【问题标题】:curl - Scraping large amounts of content from a websitecurl - 从网站上抓取大量内容
【发布时间】:2013-02-24 13:58:38
【问题描述】:

我很好奇是否有人对利用 PHP/CURL(甚至其他技术)从网站下载内容的最佳方法有任何建议。现在我正在使用 curl_multi 一次执行 10 个请求,这对一些人有帮助。

我确实需要每天请求大约 10 万页,这可能会有点乏味(现在需要 16 小时)。我最初的想法只是设置多个虚拟机并拆分任务,但想知道除了并行化之外我是否还缺少其他东西。 (我知道你总是可以在这个问题上扔更多的机器嘿)

提前致谢!

【问题讨论】:

  • 缓存?这取决于您的要求?

标签: php curl


【解决方案1】:

这取决于您对内容的处理方式,但请尝试使用排队系统。

我建议Resque。它使用 Redis 来处理队列。它专为同时速度和多个请求而设计。它还有一个 resque-web 选项,提供了一个很好的托管 UI。

您可以使用一台机器将新 URL 排队,然后您可以让一台或多台机器处理队列。

其他选项:KestrelRabbitMQBeanstalkd

【讨论】:

  • Resque 正是我所需要的,它是完美的。非常感谢!
【解决方案2】:

要检索 Web 内容,您可以使用 curl 或 fsockopen。两种方法的比较见Which is better approach between fsockopen and curl?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-05-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-05-30
    相关资源
    最近更新 更多