URL 去除 url 地址的“#section”部分答案

【问题标题】：URL strip "#section" part of url adressURL 去除 url 地址的“#section”部分
【发布时间】：2022-01-21 13:16:03
【问题描述】：

我有 3 个 url，我想剥离（摆脱）实际 url 后面的部分（这些 url 指向同一页面，但指向不同的部分。我想剥离 url 的“部分”部分):

url1 = "https://python.iamroot.eu/install/index.html#alternate-installation-the-home-scheme"
# wanted output: https://python.iamroot.eu/install/index.html

url2 = "https://python.iamroot.eu/install/index.html#alternate-installation-unix-the-prefix-scheme"
# wanted output: https://python.iamroot.eu/install/index.html

url3 = "https://python.iamroot.eu/install/index.html"
# wanted output: https://python.iamroot.eu/install/index.html

【问题讨论】：

标签： python url strip

【解决方案1】：

我想我找到了解决办法。

print(url1.split("#")[0])
print(url2.split("#")[0])
print(url3.split("#")[0])

很抱歉浪费了您的时间。

【讨论】：

【解决方案2】：

最好的方法是使用urllib.parse 库，这比尝试自己拆分更安全：

from urllib.parse import urlparse

url1 = "https://python.iamroot.eu/install/index.html#alternate-installation-the-home-scheme"

newurl = urlparse(url1)._replace(fragment='')
print newurl.geturl())
# https://python.iamroot.eu/install/index.html

【讨论】：

【解决方案3】：

这样做的一个好方法是使用正则表达式。这是一个了不起的工具，广泛应用于多种语言

import re
url=''#the url you want to strip
stripped_url = re.findall(".*.html", url)[0]# the stripped url

Here you can see the documentation of regex

【讨论】：