【问题标题】:XPath: extract all tags in html pageXPath:提取html页面中的所有标签
【发布时间】:2021-04-10 05:42:06
【问题描述】:

我是 XPath 的新手,但遇到了问题。我想提取网页上所有且唯一的 html 标记。

示例:

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>

我的输出应该是:

["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]

【问题讨论】:

  • 到目前为止你尝试过什么?你的代码有什么问题?

标签: python html xpath


【解决方案1】:

尝试使用带有re.findall 函数的正则表达式:

>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>> 

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-22
    • 2011-04-21
    相关资源
    最近更新 更多