【问题标题】:Extracting div class text from HTML with BeautifulSoup使用 BeautifulSoup 从 HTML 中提取 div 类文本
【发布时间】:2015-12-03 20:03:43
【问题描述】:

试图从 OkCupid 中抓取数据并获取相关的文本数据。

例如用户名数据存储在:

<div class="userinfo2015-basics-username"> AmericanMary666 

获取用户名的代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.okcupid.com/profile/AmericanMary666") 

bsObj = BeautifulSoup(html,"html.parser")
nameList = bsObj.findAll('div', attrs={'class': 'userinfo2015-basics-username'})

for name in nameList:
    print(name.get_text())  

它不起作用,我不知道为什么。

【问题讨论】:

    标签: python html web-scraping beautifulsoup


    【解决方案1】:

    在您提供的链接中没有 divuserinfo2015-basics-username 类。 我的猜测是您正在从当前登录的浏览器查看 HTML 源代码。尝试注销或隐身会话,您将看到不同的源代码。 您可能需要查看 requests 模块来验证和维护请求之间的会话。 http://docs.python-requests.org/en/latest/

    【讨论】:

      猜你喜欢
      • 2018-06-06
      • 2021-07-12
      • 1970-01-01
      • 1970-01-01
      • 2016-08-12
      • 1970-01-01
      • 2018-06-06
      • 2016-04-19
      • 1970-01-01
      相关资源
      最近更新 更多