【发布时间】:2018-08-20 22:02:05
【问题描述】:
我已经尝试使用 java 和 python 抓取这个特定链接,但我不断收到 404 状态代码,即使它存在。
import requests
from bs4 import BeautifulSoup
from lxml import html
from collections import defaultdict
url = 'https://www.slacker.com/station/pop-remix'
def main():
page = requests.get(url)
print(page.status_code)
print()
if __name__ == "__main__": main()
【问题讨论】:
-
FWIW,当我运行你的程序时,我得到了
200。 -
我会按顺序检查。 (1) 这正是您正在运行的代码吗? (2) 您是在与浏览器相同的机器上运行它,还是在不同网络/地理位置/等上的某个云服务器上运行它? (3) 您是否有可能触发了一些“非法抓取”检测,并且服务器现在会在一段时间内向来自您 IP 的所有请求返回错误?
-
我也获得了 404 状态。但它似乎实际上是在抓取网页。即 page.content 确实 包含页面的内容。对我来说似乎很奇怪,可以抓取一个找不到的页面......
标签: python html beautifulsoup python-requests http-status-code-404