curl - 从网站上抓取大量内容

【问题标题】：curl - Scraping large amounts of content from a websitecurl - 从网站上抓取大量内容
【发布时间】：2013-02-24 13:58:38
【问题描述】：

我很好奇是否有人对利用 PHP/CURL（甚至其他技术）从网站下载内容的最佳方法有任何建议。现在我正在使用 curl_multi 一次执行 10 个请求，这对一些人有帮助。

我确实需要每天请求大约 10 万页，这可能会有点乏味（现在需要 16 小时）。我最初的想法只是设置多个虚拟机并拆分任务，但想知道除了并行化之外我是否还缺少其他东西。（我知道你总是可以在这个问题上扔更多的机器嘿）

提前致谢！

【问题讨论】：

缓存？这取决于您的要求？

标签： php curl

【解决方案1】：

这取决于您对内容的处理方式，但请尝试使用排队系统。

我建议Resque。它使用 Redis 来处理队列。它专为同时速度和多个请求而设计。它还有一个 resque-web 选项，提供了一个很好的托管 UI。

您可以使用一台机器将新 URL 排队，然后您可以让一台或多台机器处理队列。

其他选项：Kestrel、RabbitMQ、Beanstalkd

【讨论】：

Resque 正是我所需要的，它是完美的。非常感谢！

【解决方案2】：

要检索 Web 内容，您可以使用 curl 或 fsockopen。两种方法的比较见Which is better approach between fsockopen and curl?。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2017-05-14
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2020-05-30

相关资源

下载 2021-06-06
下载 2023-03-07
下载 2022-12-24

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode