【发布时间】:2019-07-16 15:17:36
【问题描述】:
url_parse 函数非常快,并且大部分时间都可以正常工作。但是最近,域名可能包含UTF-8字符,例如
url <- "www.cordes-tiefkühlprodukte.de"
现在如果我在这个 url 上应用url_parse,我会在域列中得到一个特殊字符“”:
url_parse(url)
scheme domain port path parameter fragment
1 <NA> www.cordes-tiefk<fc>hlprodukte.de <NA> <NA> <NA> <NA>
我的问题是:如何将这个条目“修复”为 UTF-8?我尝试了iconv 和stringi 包中的一些功能,但没有成功。
(我知道httr::parse_url,它没有这个问题。所以一种方法是检测不是ascii的网址,并在这些网址上使用url_parse,在少数特殊情况下使用parse_url。但是,这会导致(有效地)检测非 ascii URL 的问题。)
编辑:不幸的是,url1 <- URLencode(enc2utf8(url)) 没有帮助。当我这样做时
robotstxt::paths_allowed(
url1,
domain=urltools::suffix_extract(urltools::domain(url1))
)
我收到一个错误could not resolve host。但是,手动插入原始 URL 和二级域,paths_allowed 可以工作。
> sessionInfo()
R 版本 3.6.1 (2019-07-05) 平台:x86_64-w64-mingw32/x64(64位) 运行于:Windows 10 x64(内部版本 17134)
矩阵产品:默认
语言环境:
[1] LC_COLLATE=German_Germany.1252 LC_CTYPE=German_Germany.1252
[3] LC_MONETARY=German_Germany.1252 LC_NUMERIC=C
[5] LC_TIME=German_Germany.1252
附加的基础包: [1] stats graphics grDevices utils datasets methods base
其他附加包: [1] urltools_1.7.3 fortunes_1.5-4
通过命名空间加载(未附加): [1] compiler_3.6.1 Rcpp_1.0.1 triebeard_0.3.0
【问题讨论】:
-
我没有得到你在
url <- "www.cordes-tiefkühlprodukte.de";urltools::url_parse(url)时显示的特殊字符。domain列显示为www.cordes-tiefkühlprodukte.de,与url相同。我的 R 版本是R version 3.5.2和packageVersion("urltools") ‘1.7.3’。您可能想用您的sessionInfo()更新帖子 -
可能是我的 LOCALE 有问题?
-
我也得到了特殊字符。这是否解决了您的问题:
URLencode(enc2utf8(url))?
标签: r url-parsing