【发布时间】:2014-08-28 04:27:46
【问题描述】:
我一直在制作一个 PHP 爬虫,它需要从站点获取所有链接并触发这些链接(而不是手动单击它或执行客户端 JS)。
我已经阅读了这些:
还有其他人,我决定跟着1。
到目前为止,它一直在工作,但我对使用 file_get_contents 和 dom->loadHTMLFile 的方法的差异感到困惑。能否请您告诉我这些以及它可能导致的影响、利弊,或简单与情景的对比。
【问题讨论】:
-
file_get_contents只是获取目标网页包含的所有 html,它不知道 DOM。对于 DOM 操作,即使您通过file_get_contents获取内容,您仍然必须使用与 DOM 相关的类
标签: php dom web-crawler