【发布时间】:2014-09-09 07:34:22
【问题描述】:
我想从段落中搜索一个单词,段落也有 html 文本。 但我只想要不在 html 标签中的简单文本中的单词。
例如。
post_content = """I have a question about xyz.
I have a question about xyz .
I have a question about xyz?
I have a question about <a href="hello">xyz</a>.
I have a question about <a href="hello">abc xyz</a>
xyz
*xyz"""
我不想要来自<a></a> 的 xyz。
请给我一个正则表达式,
我试过[^<.+?>]xyz
查看演示:DEMO
更新代码
post_content = <above string>
keyword = "xyz"
pattern = r"(?!((?!<).)*<\/)%s" % keyword
replace = "<a href='#'>xyz</a>"
post_content = re.sub(pattern, replace, post_content)
print "post_content", post_content
【问题讨论】:
-
现在检查。这段代码对我有用。
标签: python regex python-2.7 python-3.x