【问题标题】:python urljoin directory not includpython urljoin目录不包括
【发布时间】:2014-02-10 06:01:33
【问题描述】:

我想修正一些关于 urlparse.urljoin 的情况。 像这样使用这个库

urljoin('http://xxxx.yyy/directory/','file.file')

给我http://xxxx.yyy/directory/file.file,但如果我最后没有在 url 中给出斜线,比如

urljoin('http://xxxx.yyy/directory','file.file')

给我http://xxxx.yyy/file.file,这让我无法编写自动收集程序。 任何人都可以解决这个问题。我试图用正则表达式最后加上斜线并替换,但是当 url 完成时这些不能正常工作

http://xxxx.yyy/zzzz/file.file

【问题讨论】:

    标签: python regex urlparse


    【解决方案1】:

    它的行为正确。如果您在http://example.com/index.html 上并单击指向two.html 的链接,您最终会到达http://example.com/two.html。这就是定义相对 URL 的工作方式。

    urljoin 无法知道最后一个组件是否是目录。您可以尝试猜测,也许通过寻找.,并且仅在您认为应该存在的情况下添加斜线。

    【讨论】:

    • 我知道 urljoin 工作正常。所以我也尝试检查扩展名,但有些文件链接没有扩展名。感谢回答 Eevee :)
    猜你喜欢
    • 1970-01-01
    • 2014-08-07
    • 2015-10-18
    • 2020-04-28
    • 2017-12-21
    • 1970-01-01
    • 1970-01-01
    • 2013-08-04
    • 2011-12-31
    相关资源
    最近更新 更多