【发布时间】:2021-11-17 02:22:01
【问题描述】:
我用selenium提取了一个网站的html代码,我把它放在了变量html_code中
我想提取那些html标签的标签和对应的id。
到目前为止,我已经设法单独使用提取标签
var1 = re.findall(r'<label\s*.*>(.+?)<\?label>', html_code)
我的问题是:如何将html标签的相应ID与标签一起提取?我使用什么功能?我可以为此使用 findall 或其他功能的组合吗?
【问题讨论】:
-
什么是标签ID?
-
上传 HTML sn-p 并解释预期的输出。
-
在 HTML 上使用正则表达式是 ill-advised。使用 BeautifulSoup 之类的 HTML 解析器,您尝试做的事情听起来是可行的
-
@balder 下面是我要处理的 HTML sn-p 示例: I需要将 id_name 和 LabelName 一起提取并放入 pandas 数据框
-
@WiktorStribizew 请参考我上面的评论