【问题标题】:Issues with replacing CSS tags with gsub用 gsub 替换 CSS 标签的问题
【发布时间】:2026-02-13 01:35:01
【问题描述】:

我目前正在从事网络抓取项目。我当前的问题是从我的数据中删除 CSS 标签。以下是我的代码的基础知识:

library(Rcrawler)
setwd("C:myfile")
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div"))
test1<-gsub("[\\t\\n]"," ",DATA) print(test1)

如果您检查控制台,您会注意到 gsub 替换了 CSS 标记,但它也替换了我的代码正在抓取的文本中的所有 ts 和 ns。如何在不影响其他文本的情况下有效地删除 CSS 标签?

【问题讨论】:

    标签: r web-scraping gsub


    【解决方案1】:

    使用双反斜杠。您需要转义第一个反斜杠。

    【讨论】:

    • 双反斜杠删除所有标签,这对我想要完成的工作很有帮助,但它仍然会从我试图收集的文本中删除我不想删除的字母。