【发布时间】:2013-05-26 17:06:24
【问题描述】:
我正在用 C# 构建一个网络爬虫,并通过执行以下操作获取页面上的所有链接:
foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
}
这是在 Internet 上运行的,因此链接可能格式不正确,甚至可能是不同的协议。将 /gohere/index.html 或 potato.php 等内部链接转换为也包含网站 URL 的外部链接的最佳方法是什么。
【问题讨论】:
标签: c# web-scraping html-agility-pack