【发布时间】:2014-12-21 06:58:27
【问题描述】:
我正在用 scrapy 抓取的文档中有一系列 <p> 元素。
其中一些是:
<p><span>bla bla bla</span></p>
要么
<p><span><span>bla bla bla</span><span>second bla bla</span></span></p>
我想提取所有带有孩子的文本(假设我已经有了<p的选择器)
(第二个例子:有一个字符串bla bla bla second bla bla)
【问题讨论】:
-
你能展示一些如何从响应正文中提取数据的代码吗?
-
Beautifulsoup 是一个很棒的抓取库。您可以将其与
scrapy一起使用。