【发布时间】:2014-08-17 21:11:28
【问题描述】:
我正在尝试编写一个 Python 解析器来从 html 页面中提取一些信息。
它应该从<p itemprop="xxx">和</p>之间提取文本
我使用正则表达式:
m = re.search(ur'p>(?P<text>[^<]*)</p>', html)
但是如果它们之间是另一个标签,它就无法解析文件。例如:
<p itemprop="xxx"> some text <br/> another text </p>
据我了解,[^<] 仅对一个符号例外。 “除了</p>”怎么写?
【问题讨论】:
-
使用 HTML 解析器,例如 Beautiful Soup。正则表达式不适合这种解析。