【发布时间】:2022-01-12 06:36:10
【问题描述】:
我正在尝试从只能作为 HTML 页面访问的 XML 文件中抓取一些简单数据。
import requests
import pprint
import pandas as pd
from bs4 import BeautifulSoup
url = "https://musicbrainz.org/ws/2/artist/?query=artist:massive-attack"
resp = requests.get(url).text
soup = BeautifulSoup(resp, 'html.parser')
something = soup.find_all(string="artist")
metadata = soup.select("#folder0 > div:nth-child(1)")
beginarea = soup.select("#folder3 > div.opened > div:nth-child(1) > span:nth-child(2)")
print(something)
每当我尝试选择一个元素并打印其内容时,我都会得到 []。我尝试了选择器和 BeautifulSoup 搜索方法,以及使用 ElementTree 将其解析为 XML 文件。我在这里想念什么?我似乎根本无法从页面中获取任何数据。 谢谢。
【问题讨论】:
-
试试
soup = BeautifulSoup(resp, "lxml")让我知道它是否有效。
标签: python html xml beautifulsoup