【发布时间】:2023-04-01 13:52:01
【问题描述】:
我不确定这是否真的被称为网络爬虫,但这就是我想要做的。
我正在使用 C# .Net 在 Visual Studio 2010 中构建一个程序。
我想查找所有具有相同第一部分的网址。
假设我有一个主页:www.mywebsite.com,还有几个子页面:/tab1、/tab2、/tab3等
有没有办法获取以www.mywebsite.com 开头的所有网址的列表?
所以通过提供www.mywebsite.com,程序返回www.mywebsite.com/tab1、www.mywebsite.com/tab2、www.mywebsite.com/tab3等。
ps。不知道一共有多少个子页面。
--下午 12:04 编辑--
抱歉没有解释。
我想知道如何用 C# 编写一个爬虫来完成上述任务。
我只知道主网址www.mywebsite.com,目标是找到它的所有子页面。
-- 下午 12:16 编辑--
另外,主页没有链接,html基本是空白的。
我只知道子页面存在,但除了提供确切的网址外无法链接到它。
【问题讨论】:
-
考虑细化您的问题,使其更具体地说明您在实施过程中遇到的问题。
-
请弄清楚您的实际要求 - 您的问题范围从“如何从 url 中提取主机名(即使用 Url 类)”到如何使用正则表达式解析 HTML 来手动编写网络爬虫"。
-
如果 hmtl 在 home oage 中为空白,您应该开始抓取具有链接或您可能想要关注的其他类型 html 标签的那个。 IE 你可以从 www.mywebsite.com/tab2
标签: c# web-crawler