【发布时间】:2010-09-06 19:37:18
【问题描述】:
哪些内置 PHP 函数对网页抓取有用?有哪些好的资源(网络或印刷)可以加快使用 PHP 进行网络抓取?
【问题讨论】:
-
我想推荐我最近遇到的这门课。 Simple HTML DOM Parser
-
PHP 是一种特别糟糕的语言。它缺少一个事件驱动的框架,这几乎是该任务所必需的。你能用它爬取一个网站吗——是的。你会爬很多网站吗?没有。
-
@EvanCarroll cURL 和 DOMdocument 是否适合从多个网站抓取产品的价格和图片(输出到我的网站上)?例如this Stackoverflow link 如果没有,你有什么建议?
-
试试吧,如果它有效,它对你来说已经足够好了。 Node 是构建网络爬虫的更好选择。另外,Phantom.JS(如果你需要一些现代的东西,它实际上有一个 dom 并在其上运行 javascript)。
标签: php screen-scraping