【问题标题】:URL strip "#section" part of url adressURL 去除 url 地址的“#section”部分
【发布时间】:2022-01-21 13:16:03
【问题描述】:

我有 3 个 url,我想剥离(摆脱)实际 url 后面的部分(这些 url 指向同一页面,但指向不同的部分。我想剥离 url 的“部分”部分):

url1 = "https://python.iamroot.eu/install/index.html#alternate-installation-the-home-scheme"
# wanted output: https://python.iamroot.eu/install/index.html

url2 = "https://python.iamroot.eu/install/index.html#alternate-installation-unix-the-prefix-scheme"
# wanted output: https://python.iamroot.eu/install/index.html

url3 = "https://python.iamroot.eu/install/index.html"
# wanted output: https://python.iamroot.eu/install/index.html

【问题讨论】:

    标签: python url strip


    【解决方案1】:

    我想我找到了解决办法。

    print(url1.split("#")[0])
    print(url2.split("#")[0])
    print(url3.split("#")[0])
    

    很抱歉浪费了您的时间。

    【讨论】:

      【解决方案2】:

      最好的方法是使用urllib.parse 库,这比尝试自己拆分更安全:

      from urllib.parse import urlparse
      
      url1 = "https://python.iamroot.eu/install/index.html#alternate-installation-the-home-scheme"
      
      newurl = urlparse(url1)._replace(fragment='')
      print newurl.geturl())
      # https://python.iamroot.eu/install/index.html
      

      【讨论】:

        【解决方案3】:

        这样做的一个好方法是使用正则表达式。这是一个了不起的工具,广泛应用于多种语言

        import re
        url=''#the url you want to strip
        stripped_url = re.findall(".*.html", url)[0]# the stripped url
        

        Here you can see the documentation of regex

        【讨论】:

          猜你喜欢
          • 2015-04-25
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2014-01-28
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多