如何从嵌套的 <dl><dt> 中获取文本？答案

【问题标题】：How can I get text from within a nested <dl><dt>?如何从嵌套的 <dl><dt> 中获取文本？
【发布时间】：2015-03-10 23:24:22
【问题描述】：

我是网络抓取的新手，所以如果我误解了什么，我提前道歉......

我正在尝试从 ESPN 获取数据。这是我的python代码：

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'http://espn.go.com/nba/teams'
r = requests.get(url)

soup = BeautifulSoup(r.text)
tables = soup.find_all('dl')

teams = []
prefix_1 = []
prefix_2 = []
teams_urls = [] 

for table in tables:
    lis = table.find_all('dt', text=False)
    print lis
    for li in lis:
        info = dt
        teams.append(info.text)
        url = info['href']
        teams_urls.append(url)
        prefix_1.append(url.split('/')[-2])
        prefix_2.append(url.split('/')[-1])

print (teams)

当我在不同点打印时，我得到空括号 [] 作为返回。请帮忙。谢谢。

【问题讨论】：

不清楚您要准确获取什么

标签： python python-2.7 web-scraping beautifulsoup html-parsing

【解决方案1】：

您正在从菜单中提取团队名称，但实际页面内容也包含团队。

让我们使用CSS selectors 来访问页面上的每个团队链接。因此，让我们构建一个包含团队名称和 url 的字典列表：

import requests
from bs4 import BeautifulSoup

url = 'http://espn.go.com/nba/teams'
r = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17'})

soup = BeautifulSoup(r.content, 'lxml')

teams = []
for link in soup.select('div.mod-table div.mod-content ul li h5 a[href]'):
    teams.append({
        'name': link.text,
        'url': link['href']
    })

print(teams)

打印：

[
    {'name': u'Boston Celtics', 'url': 'http://espn.go.com/nba/team/_/name/bos/boston-celtics'},
    {'name': u'Brooklyn Nets', 'url': 'http://espn.go.com/nba/team/_/name/bkn/brooklyn-nets'},
    ...
    {'name': u'Utah Jazz', 'url': 'http://espn.go.com/nba/team/_/name/utah/utah-jazz'}
]

【讨论】：

谢谢，但我遇到了与另一段代码相同的问题。这仅返回 12 支球队：[{'url': 'espn.go.com/nba/team/_/name/bos/boston-celtics', 'name': u'Boston Celtics'}, {'url': 'espn.go.com/nba/team/_/name/bkn/brooklyn-nets', 'name': u'Brooklyn Nets' }, {'url': 'espn.go.com/nba/team/_/name/ny/new-york-knicks', 'name': u'New York Knicks'}, {'url': 'espn.go.com/nba/team/_/name/phi/philadelphia-76ers', 'name': u'Philadelphia 76ers'}... { 'url': 'espn.go.com/nba/team/_/name/cle/cleveland-cavaliers', 'name': u'Cleveland Cavaliers'}]
@user3453024 快速检查：安装 lxml (pip install lxml) 并再次运行代码。谢谢。
我想我安装了lxml。当我从终端运行它时，我得到： $ pip install lxml 要求已经满足（使用 --upgrade 升级）： lxml in ./anaconda/lib/python2.7/site-packages 清理...
当我再次运行代码时，仍然得到 len = 12。是否需要在代码中添加任何内容才能利用 lxml？
呸！做到了。非常感谢！如果有时间，headers = {'User-Agent 位有什么作用？