【发布时间】:2026-02-13 01:35:01
【问题描述】:
我目前正在从事网络抓取项目。我当前的问题是从我的数据中删除 CSS 标签。以下是我的代码的基础知识:
library(Rcrawler)
setwd("C:myfile")
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div"))
test1<-gsub("[\\t\\n]"," ",DATA) print(test1)
如果您检查控制台,您会注意到 gsub 替换了 CSS 标记,但它也替换了我的代码正在抓取的文本中的所有 ts 和 ns。如何在不影响其他文本的情况下有效地删除 CSS 标签?
【问题讨论】:
标签: r web-scraping gsub