【发布时间】:2015-02-13 23:32:23
【问题描述】:
我熟悉 BeautifulSoup 和正则表达式作为从 HTML 中提取文本的一种方法,但对其他方面不太熟悉,例如 ElementTree、Minidom 等。
我的问题很简单。给定下面的 HTML sn-p,哪个库最适合提取下面的文本?文本为整数。
<td class="tl-cell tl-popularity" data-tooltip="7,944,796" data-tooltip-instant="">
<div class="pop-meter">
<div class="pop-meter-background"></div>
<div class="pop-meter-overlay" style="width: 55%"></div>
</div>
</td>
【问题讨论】:
-
好吧
re绝对不是一个好选择,对 html 进行微小的更改,您的正则表达式就会中断。
标签: python web-scraping beautifulsoup html-parsing