【发布时间】:2014-10-09 06:20:42
【问题描述】:
我在使用 BeautifulSoup 时发现了一些奇怪的地方,但找不到任何支持这一点的文档,所以我想在这里询问。
假设我们有一个类似这样的标签,我们已经用 BS 解析过:
<td>Some Table Data</td>
<td></td>
official documented 提取数据的方式是soup.string。但是,这为第二个 <td> 标记提取了 NoneType。所以我尝试了soup.text(因为为什么不呢?)它完全按照我的意愿提取了一个空字符串。
但是,我在文档中找不到对此的任何引用,并且担心有些事情是遗漏的。谁能告诉我这是否可以使用或以后会引起问题?
顺便说一句,我正在从网页上抓取表格数据,并打算从数据中创建 CSV,所以我确实需要空字符串而不是 NoneTypes。
【问题讨论】:
标签: python beautifulsoup