使用 BeautifulSoup 从 HTML 中提取 div 类文本答案

【问题标题】：Extracting div class text from HTML with BeautifulSoup使用 BeautifulSoup 从 HTML 中提取 div 类文本
【发布时间】：2015-12-03 20:03:43
【问题描述】：

试图从 OkCupid 中抓取数据并获取相关的文本数据。

例如用户名数据存储在：

<div class="userinfo2015-basics-username"> AmericanMary666

获取用户名的代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.okcupid.com/profile/AmericanMary666") 

bsObj = BeautifulSoup(html,"html.parser")
nameList = bsObj.findAll('div', attrs={'class': 'userinfo2015-basics-username'})

for name in nameList:
    print(name.get_text())

它不起作用，我不知道为什么。

【问题讨论】：

标签： python html web-scraping beautifulsoup

【解决方案1】：

在您提供的链接中没有 div 和 userinfo2015-basics-username 类。我的猜测是您正在从当前登录的浏览器查看 HTML 源代码。尝试注销或隐身会话，您将看到不同的源代码。您可能需要查看 requests 模块来验证和维护请求之间的会话。 http://docs.python-requests.org/en/latest/

【讨论】：