【发布时间】:2011-10-09 23:07:03
【问题描述】:
我有这种方法,当提供链接列表时,将获取子链接等等:
def crawlSite(self, linksList):
finalList = []
for link in list(linksList):
if link not in finalList:
print link
finalList.append(link)
childLinks = self.getAllUniqueLinks(link)
length = len(childLinks)
print 'Total links for this page: ' + str(length)
self.crawlSite(childLinks)
return finalList
它最终会重复使用相同的链接集,我似乎无法弄清楚。当我在 if 语句中移动 self.crawlSite(childLinks) 时。我一遍又一遍地重复列表中的第一项。
self.getAllUniqueLinks(link) 方法的背景知识从给定页面获取链接列表。它过滤给定域内的所有可点击链接。基本上我想做的是从网站上获取所有可点击的链接。如果这不是所需的方法。你能推荐一种更好的方法来做同样的事情吗?另请考虑我对 python 相当陌生,可能不了解更复杂的方法。所以请解释一下你的思维过程。如果你不介意:)
【问题讨论】:
标签: python function recursion hyperlink web-crawler