【发布时间】:2025-12-29 17:10:17
【问题描述】:
我正在创建一个网络爬虫。我想给它一个 URL,它会在目录和子目录中扫描 .html 文件。我一直在寻找两种选择:
scandir($url)。这适用于本地文件,但不适用于 http 站点。这是因为文件权限吗?我猜它不应该起作用,因为每个人都可以访问您的网站文件是很危险的。搜索链接并关注它们。我可以在索引文件上执行 file_get_contents,找到链接,然后按照它们访问他们的 .html 文件。
这两种方法中的任何一种都有效吗,还是有第三种选择?
【问题讨论】:
标签: php web-crawler