【发布时间】:2012-07-07 21:27:05
【问题描述】:
我想知道是否有一些代码或库可以获取域下的所有 url。我需要找到一个域的所有 url。
例如,如果我的域是https://stackoverflow.com/,并且我想查找所有问题的 url,如下所示:
- [Java lib or app to convert CSV to XML file?
- [https://stackoverflow.com/questions/456/what-can-i]
- [https://stackoverflow.com/questions/789/where-can-i]
我不知道该域下有多少问题,但我必须创建一个引擎来搜索所有 url,然后在找到 url 后我需要将内容插入到我的数据库中。
我将为我的 5 个网页创建一个小型搜索引擎。
有人可以帮忙吗?
谢谢,
【问题讨论】:
-
这对于一个问题来说似乎相当广泛......您正在编写一个网络爬虫,这很复杂。您能否将您的问题缩小到特定的技术问题,或者您希望我们为您的程序提供架构?
-
我将使用 php 创建,但我不知道这份工作的名称,所以我不知道如何在 google 中搜索。我如何在谷歌样本中搜索这项工作?实际上它们中的机器人可以工作。为我提供架构或方式是您的选择。我没事。
-
请详细说明“我将为我的 5 个网页创建一个小型搜索引擎。”,如果您抓取/抓取一个网站,您为什么会有 5 个网页,或者这只是一个示例数字?
标签: php search search-engine web-scraping