【发布时间】:2015-11-17 19:18:56
【问题描述】:
到目前为止,我已经开始这样做了。我无法从 div 中获取正常文本。
from BeautifulSoup import BeautifulSoup
import urllib2
get = BeautifulSoup(urllib2.urlopen("https://example/com/").read()).findAll('div', {'class':'h4 entry-title'})
import sys
for i in get:
print i
请问如何从这个 HTML 中删除数据?我只需要这些颜色名称和段落。
<div class="h4 entry-title">
<a href="https://example/com/01/">RED</a>
</div>
<p>
I am paragraph red
<p>
<div class="h4 entry-title">
<a href="https://example.com/02/">WHITE</a>
</div>
<p>
I am paragraph white
</p>
<div class="h4 entry-title">
<a href="https://example.com/03/">PINK</a>
</div>
<p>
I am paragraph pink
</p>
我的问题:
- 如何从这个 HTML 中删除数据?我只需要文本和段落。
我在控制台中需要的输出:
RED我是款红 WHITE我是款白 PINK我是款粉色
- 如何将这些数据集自动导入 SQL 文件?
我想要的输出数据库表(名称、描述):
名称:红色,白色,粉红色 描述:我是红色款,我是白色款,我是粉色款【问题讨论】:
标签: python sqlite web-scraping beautifulsoup urllib2