【问题标题】:How to extract links from HTML (with python)如何从 HTML 中提取链接(使用 python)
【发布时间】:2017-06-20 01:38:15
【问题描述】:

所以我已经下载了网页的 HTML。我应该从 HTML 中提取所有链接并输出它们。这是我的代码

f = open('html.py','r')
heb = f.readlines()
arry = []
if 'href' in heb:
    arry = arry.append(href)

    print(arry)

我正在尝试制作链接列表并将其输出,但老实说,我很迷茫。有人可以指出我正确的方向吗?我在想正则表达式可能是要走的路 谢谢

【问题讨论】:

标签: python html parsing


【解决方案1】:

您可以使用 Beautiful Soup(您需要安装它,例如使用 pip install BeautifulSoup4):

import bs4

with open("my-file.html") as f:
    soup = bs4.BeautifulSoup(f)

links = [link['href'] for link in soup('a') if 'href' in link.attrs]

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-07-10
    • 2013-08-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-03-30
    相关资源
    最近更新 更多