XPath：提取html页面中的所有标签

【问题标题】：XPath: extract all tags in html pageXPath：提取html页面中的所有标签
【发布时间】：2021-04-10 05:42:06
【问题描述】：

我是 XPath 的新手，但遇到了问题。我想提取网页上所有且唯一的 html 标记。

示例：

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>

我的输出应该是：

["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]

【问题讨论】：

到目前为止你尝试过什么？你的代码有什么问题？

标签： python html xpath

【解决方案1】：

尝试使用带有re.findall 函数的正则表达式：

>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>>

【讨论】：