【发布时间】:2018-08-24 12:06:20
【问题描述】:
我试图在这段代码中分割 URL,如果 URL[2] 的前 4 个字符是 www。只需将其添加到新列表中,但如果它们不是 www。然后 URL = www。 + 网址。我遇到的问题是我不断得到像 www.www.google.com 这样的结果。我已经尝试了很多不同的表达方式,但无法正确>请帮助:)
for i in raw_links:
raw_links += (scrape_links(i))
checked += 1
string = str(checked) + ' links checked'
print(string)
for i in raw_links:
i = i.split('//') and i.split('/')
url = i[2]
del i
if url[0:3] != 'www.':
top_domain = 'www.' + url
if not top_domain in checked_links:
checked_links += top_domain
print(top_domain)
elif url[0:3] == 'www.':
checked_links += url
print(url)
else:
del i
print(raw_links[i],'deleted!!')
【问题讨论】:
-
使用urllib的urljoin函数
-
我该怎么做?在哪里做?我是初学者,所以如果可以的话,请更准确:)
-
请忽略。我误解了你的问题。
标签: python python-3.x web-scraping