【发布时间】:2012-01-17 01:00:13
【问题描述】:
我有一个简单的网络爬虫,它从根目录(给定 url)开始下载根页面的 html,然后扫描超链接并抓取它们。我目前将 html 页面存储在 SQL 数据库中。我目前面临两个问题:
似乎爬虫遇到了瓶颈,无法更快地爬虫,我在某处读到,对页面进行多线程 http 请求可以使爬虫爬得更快,但我不确定如何做到这一点。
-
第二个问题,我需要一个高效的数据结构来存储html页面并能够对其进行数据挖掘操作(目前使用SQL数据库想听听其他建议)
李>
我正在使用 .Net 框架、C# 和 MS SQL
【问题讨论】:
标签: c# algorithm web-crawler