【发布时间】:2017-06-20 01:38:15
【问题描述】:
所以我已经下载了网页的 HTML。我应该从 HTML 中提取所有链接并输出它们。这是我的代码
f = open('html.py','r')
heb = f.readlines()
arry = []
if 'href' in heb:
arry = arry.append(href)
print(arry)
我正在尝试制作链接列表并将其输出,但老实说,我很迷茫。有人可以指出我正确的方向吗?我在想正则表达式可能是要走的路 谢谢
【问题讨论】:
-
不要在 html 上使用正则表达式!使用像 BeautifulSoup 这样的 HTML 解析器。