【发布时间】:2011-05-18 21:34:21
【问题描述】:
我正在使用 BeautifulSoup 从表中提取表数据标签。 TD 具有“a”、“u”、“e”、“available-unavailable”或“unavailable-available”类。 (是的,我知道古怪的类名,但是嘿......)
这是一个例子:
<tr>
<td class="u">4</td>
<td class="unavailable-available">5</td>
<td class="a'>6</td>
<td class="available-unavailable">7</td>
<td class="u">8</td>
...
我一直在使用包含 re.compile() 的行:
tab = [int(tag.string) for tag in soup.find('table',{'summary':tableSummary}).findAll("td", attrs = {"class": re.compile('\Aa')})]
我需要提取所有类名为“a”和“不可用-可用”的 td。我一直在尝试一些负面的前瞻性断言,但运气不佳。我会重视任何能够产生正确正则表达式的正则表达式图例......
【问题讨论】:
-
你真的有 html 与
"a'条目显示的引号不匹配吗?
标签: python regex web-scraping