【发布时间】:2013-11-10 19:56:56
【问题描述】:
我目前有一个使用 PHP cURL 每分钟同时下载数百页的爬虫脚本。
我设置了一个主服务器和几个远程服务器使用 PHP cURL 下载页面并使用 REMOTE MYSQL 连接 发回数据(然后将数据保存在主服务器中)。
我正在尝试优化和降低这些服务器的成本;那么我应该水平缩放还是垂直缩放?我应该寻找更多的 RAM 还是处理器能力?
感谢任何帮助。
【问题讨论】:
-
两者都用。要找出“多少”(如果它甚至是一个问题),请运行一些负载测试并收集性能和资源使用数据。我怀疑瓶颈将首先出现在网络和/或使用 cURL 的实际抓取程序中。
-
瓶颈是网络延迟! CPU 通常会等待数百万个周期,直到您得到响应。多线程可能是成功的关键。
标签: php mysql curl autoscaling horizontal-scaling