【发布时间】:2018-06-01 10:25:43
【问题描述】:
我想使用 substr() 从网络链接中提取名称。我的问题是模式略有不同,所以我不确定如何解释这些差异。这是一个示例:
输入:
list <- c("https://www.gatcoin.io/wp-content/uploads/2017/08/GATCOIN-Whitepaper_ENG-1.pdf",
"https://appcoins.io/pdf/appcoins_whitepaper.pdf",
"https://pareto.network/download/Pareto-Technical-White-Paper.pdf",
"http://betbox.ai/BetBoxBizWhitepaper.pdf",
"https://www.aidcoin.co/assets/documents/whitepaper.pdf")
我想要的输出
c("gatcoin", "appcoins", "pareto", "betbox", "aidcoin")
据我了解,我需要指定要提取的字符串的开始和结束,但有时开始会是“https://”,而其他时候会是“https://www”。
我该如何解决这个问题?
【问题讨论】:
-
@smci 你怎么知道 OP 知道正则表达式...?
-
@akraf:我认为 OP 标记了这个正则表达式,并要求有人写一个正则表达式。但不管怎样,任何带有 substr、strsplit 或其他任何东西的尝试代码在哪里? SO 要求用户进行尝试,并且通常会显示一些尝试过的代码
-
@smic:嗯,这是一种鼓励刚开始学习编码语言的用户的方式。此外,不是很有帮助;-)。我不知道regrex,如果这能回答你的疑问。
-
基于@zx8754的链接:
library(urltools); suffix_extract(domain(urls))$domain,其中urls是链接的向量。
标签: r regex web-scraping substring stringr