【问题标题】:Regex Remove Markup Python正则表达式删除标记 Python
【发布时间】:2012-02-22 14:06:58
【问题描述】:

有一个字符串:

myString = '<p>Phone Number:</p><p>706-878-8888</p>'

尝试正则表达式输出所有 HTML 标记,在本例中为段落。

谢谢!

【问题讨论】:

标签: python html regex


【解决方案1】:

使用re.sub:

>>> re.sub('<[^>]+>', '', '<p>Phone Number:</p><p>706-878-8888</p>')
'Phone Number:706-878-8888'

如果您只想删除标签,使用re 是一个很好的解决方案。但是,如果您想做一些更复杂的事情(涉及 HTML 解析),我建议您查看BeautifulSoup

【讨论】:

    【解决方案2】:

    使用BeautifulSoup 评论指出:

    >>> from BeautifulSoup import BeautifulSoup
    >>> BeautifulSoup(myString).text
    u'Phone Number:706-878-8888'
    

    【讨论】:

    • 完美!我一直在尝试属性“字符串”而不是文本。非常感谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-06-03
    • 2014-01-29
    • 1970-01-01
    • 1970-01-01
    • 2018-05-30
    相关资源
    最近更新 更多