【发布时间】:2011-07-10 23:22:01
【问题描述】:
我想在 www.fanfiction.net 上找到一个故事的最后一章编号,只是为了好玩。为此,我认为由于它具有固定的 url 模式,我只会增加章节编号,直到它给我一个不存在的 url。
要查找该 url 是否存在,我在 stackoverflow ques 尝试了脚本
但是我发现它没有给出 > 400 的响应错误,而是给出了一条消息以及 200 响应。识别页面是否存在的最佳方法是什么。
这是一个实际存在的链接exists,这是一个不存在的链接does not exist
我该怎么做?
编辑 1
感谢 GregSchoen,我解决了这个问题。我希望它是正确的:)
我检查了 resp.getheader("last-modified", None) 的值,它给出了活动链接的一些日期,而那些没有的则没有。
非常感谢
【问题讨论】:
-
或者您可以获取第一章,查找带有
name="chapter"的select标记,并读取其中包含的每个option元素的value以获取章节列表。您可以使用BeautifulSoup来解析 HTML。