【发布时间】:2012-05-27 07:57:34
【问题描述】:
你好。
我有一个 URL 列表。我不知道如何检查这个地址是文件还是目录。
例子:
url = "http://example.com/path/to/file.html"
if '.' in url.split('/')[-1]:
return True
但如果 url 是
url = "http://example.com/path/domains/domain.com"
domain.com 是目录而不是文件。如何检测?
检查文件扩展名不好,可能是一些标题?但我想尽可能少地使用互联网传输。
编辑:
我需要下载大量链接并将它们的路径映射到我的操作系统中的位置。例如 example.com/path/to/file.html
~/Downloads/example.com/path/to/
在这里下载file.html。 例如:
example.com/directory/
create ~/Downlods/example.com/directory/
next url: example.com/directory/dir2
create ~/Downloads/example.com/directory/dir2
next url: example.com/directory/file.html
Download file.html in too ~/Downloads/example.com/directory/
not too create file.html directory
【问题讨论】:
-
真的,除非结尾有斜线,否则不能。
-
所有页面都在一个站点中?检查目录页面和爬网页面中唯一的内容,现在您可以检查...但我认为最好的方法是添加扩展名
-
@TylerCrompton 即使这样也不是万无一失的事情。 URL 是服务器处理的东西,虽然有些服务器将 URL 映射到它们的文件系统,但越来越普遍的是不处理(mod_rewrite 和 pals 很容易不处理)。你可以让任何 URL 指向你想要在你的服务器上的任何东西。
-
@Lattyware,相信我,我知道。虽然并非总是如此,但重写通常是从一个文件到一个文件或从一个目录到一个目录。