【发布时间】:2012-03-10 09:40:43
【问题描述】:
我正在尝试以编程方式从 MusicBrainz 网站检索编辑历史记录页面。 (musicbrainzngs 是 MB Web 服务的库,无法从 Web 服务访问编辑历史记录)。为此,我需要使用我的用户名和密码登录 MB 网站。
我尝试使用mechanize 模块,并使用登录页面第二个表单(第一个是搜索表单),我提交了我的用户名和密码;从响应来看,我似乎成功登录了该站点;但是,对编辑历史页面的进一步请求会引发异常:
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
我了解异常情况及其原因。我对不滥用网站负全部责任(毕竟,任何使用都会用我的用户名标记),我只是想避免手动打开页面、保存 HTML 并在保存的 HTML 上运行脚本。我可以克服 403 错误吗?
【问题讨论】:
标签: python web musicbrainz