【发布时间】:2016-07-11 19:48:03
【问题描述】:
我正在使用python正则表达式来解析html文件,现在我需要从html标签中提取一个数字,这个数字可以是整数或浮点值。以下是两个例子:
整数大小写:
<span class='addr-bbs'>2 baths</span>
浮点数情况:
<span class='addr-bbs'>3.5 baths</span>
我原来的代码是:
bath = re.findall('<span class=\"addr_bbs\">' + '(.{1,3})' + 'baths{0,1}<', str(homedata))
但经过测试,它错过了所有的浮点情况。如何涵盖这两种情况以正确提取数字?
谢谢
【问题讨论】:
-
不要使用正则表达式解析html,使用html解析器。
-
请不要用正则表达式解析 HTML,它会伤害你。您已经在使用 Python,为什么不使用 BeautifulSoup? crummy.com/software/BeautifulSoup/bs4/doc