【发布时间】:2013-10-16 10:20:35
【问题描述】:
我想在一个网页中获取所有链接,此功能只有一个链接但需要获取所有链接!我当然知道需要 The One Ring,但我不知道使用
我需要获取所有链接
def get_next_target(page):
start_link = page.find('<a href=')
start_quote = page.find('"', start_link)
end_quote = page.find('"', start_quote + 1)
url = page[start_quote + 1:end_quote]
return url, end_quote
【问题讨论】:
-
请明确说明您的需求。
-
“一环”是什么意思?
-
使用包
html.parse中的HTMLParser,如果需要,使用urllib.parser.urljoin。不要试图只搜索子字符串甚至是正则表达式,这是行不通的(嗯,并非在所有情况下)。当然,如果你只有一个页面要处理,你可以编写一个快速而肮脏的程序,但是如果你有很多来自不同来源的页面,那就不明智了。