【发布时间】:2016-03-18 02:27:49
【问题描述】:
我想要做的是找到一个网页的所有超链接,这是我到目前为止所拥有的,但它不起作用
from urllib.request import urlopen
def findHyperLinks(webpage):
link = "Not found"
encoding = "utf-8"
for webpagesline in webpage:
webpagesline = str(webpagesline, encoding)
if "<a href>" in webpagesline:
indexstart = webpagesline.find("<a href>")
indexend = webpagesline.find("</a>")
link = webpagesline[indexstart+7:indexend]
return link
return link
def main():
address = input("Please enter the adress of webpage to find the hyperlinks")
try:
webpage = urlopen(address)
link = findHyperLinks(webpage)
print("The hyperlinks are", link)
webpage.close()
except Exception as exceptObj:
print("Error:" , str(exceptObj))
main()
【问题讨论】:
-
打开一个网络浏览器,导航到一个页面,然后右键单击,查看源代码。然后 Ctrl+F 并搜索
<a href>。这是你的问题之一。 -
不,我只能使用 url open 我们还没有在课堂上讨论 xpath
-
正则表达式怎么样?
-
我不太确定课堂上的教授给我们的示例指南是什么,但他没有找到超链接,而是向我们展示了如何找到不同的页面标题
-
@JonathonReinhart 当我这样做时它没有显示任何内容
标签: python regex web-scraping