【发布时间】:2013-10-15 17:52:58
【问题描述】:
我正在做一个需要在 Internet 上进行搜索的项目(即堆栈溢出)。从搜索到 XML 文件的爬虫检索所有相关结果(URL、文本、图像路径)。我正在用python构建它。有人对我应该如何解决这个问题有任何建议吗?我不想扫描整个网络,只想搜索相关结果(stackoverflow,2013 年 10 月 8 日,python 为例)
【问题讨论】:
-
“我不想扫描整个网络……”-您是说网站吗?
标签: python xml search web-crawler