【发布时间】:2023-04-02 05:09:01
【问题描述】:
我是 web 开发的 n00b 并且我有一个 n00b 的问题。
假设有一个网站,例如,类似
index.php
page1.php
page2.php
page2-1.php
page2-2.php
page3.php
有没有一种方法可以尝试直接从索引开始进入每个子页面,而不需要知道子页面的名称?具体来说,是否有可能在 Javascript 中构建一个类似的 function
console.log(printSiteTree("StackOverflow.com");
/* Prints:
stackoverflow.com
stackoverflow.com/questions
.
.
.
stackoverflow.com/questions/29633992
.
.
.
stackoverflow.com/questions/29633992/is-there-any-tool-to-calculate-the-distance-between-a-program-point-and-a-execut
.
.
.
stackoverflow.com/tags
.
.
.
*/
不依赖任何过度的蛮力?
【问题讨论】:
-
你必须解释初始页面的内容,在那里找到 URL,然后重复这些页面等等。
-
如果页面是链接的,那么这很容易。如果它们没有关联,则需要大量猜测。
-
@Pointy 我知道这是一种方法,但除了猜测数万亿个可能的子页面名称的蛮力之外,这是唯一的方法吗?
-
您认为执行此类操作的信息可能来自哪里?您熟悉的网站是否发布了可用 URL 的完整地图?
-
您可以从服务器获取目录列表并将其提供给 JS,以便它知道在哪里查找。
标签: javascript algorithm url tree web-crawler