【发布时间】:2025-12-29 03:50:06
【问题描述】:
我是 python 新手。
我正在尝试使用 BeautifulSoup 解析来自网站的数据,我之前已经成功使用过 BeautifulSoup。然而,对于这个特定的网站,返回的数据在每个字符之间都有空格,并且还有很多“>”字符。
奇怪的是,如果复制页面源并将其添加到我的本地 apache 实例并向我的本地副本发出请求,那么输出是完美的。我应该提到我的本地和网站之间的区别:
- 我的本地不使用 https
- 我的本地不需要身份验证,但是网站确实需要 Active Directory 身份验证,而我使用 requests_ntlm
import requests
from requests_ntlm import HttpNtlmAuth
from bs4 import BeautifulSoup
r = requests.get("http://WEBSITE/CONTEXT/",auth=HttpNtlmAuth('DOMAIN\USER','PASS'))
content = r.text
soup = BeautifulSoup(content, 'lxml')
print(soup)
【问题讨论】:
标签: python beautifulsoup