【问题标题】:cSplit does not work when a field has embedded the separator当字段嵌入分隔符时,cSplit 不起作用
【发布时间】:2018-02-12 00:43:12
【问题描述】:

我正在使用 cSplit 将一列拆分为三个单独的列。分隔符是“/”

但是,我的一个字段嵌入了“/”分隔符。第三行的第三个元素应该是并且在拆分后保持为“f/j”。

当我在下面的示例中尝试它时,它会创建一个额外的(第四)列

name <- c("abc / efg / hij", "abc / abc / hij", "efg / efg / f/j", "abd / efj / hij")
y <- c(1,1.2,3.4, 5)

dt <- data.frame(name,y)
dt
dt <- cSplit(dt,"name","/", drop=FALSE)
dt

当我在包含超过 5,000 行的原始数据集中尝试它时,会产生以下错误:

fread(x, sep[i], header = FALSE) 中的错误:

期望 3 列,但是 第 2307 行包含处理所有列后的文本。再试一次 填充=真。另一个原因可能是 fread 的逻辑 区分一个或多个嵌入了 sep='/' 和/或 '\n' 的字段 不平衡的非转义引号中的字符失败。如果报价='' 没有帮助,请提出问题以确定逻辑是否可行 改进了。

【问题讨论】:

  • 在您要拆分的/ 周围使用额外的空白字符:cSplit(dt,"name"," / ", drop=FALSE)?
  • 对不起,我应该在我的原始帖子中包含这个。当我在我的数据集中尝试此操作时,我收到以下错误消息: fread(x, sep[i], header = FALSE) 中的错误:'sep' must be 'auto' or a single character
  • dt$name &lt;- gsub("([^/]+)/([^/]+)/(.*)", "\\1_\\2_\\3", dt$name); cSplit(dt, "name", "_", drop=F)?这会将目标 / 字符替换为下划线,然后拆分这些下划线。
  • 它有效,如果您发布您的答案,我可以将其投票为正确的。 TCS

标签: r splitstackshape csplit


【解决方案1】:

如果数据的结构与 name 向量的结构相同,则可以使用以下内容,这依赖于目标 / 字符被空白字符包围的想法:

cSplit(dt,"name"," / ", drop=FALSE)

但正如你提到的,这导致了以下错误:

fread(x, sep[i], header = FALSE) 中的错误:“sep”必须是“auto”或 单个字符

虽然我无法弄清楚造成这种情况的主要原因,但我认为将目标 / 字符替换为下划线(或与 / 不同的任何其他字符),然后在下划线上拆分。以下可以作为说明:

dt$name <- gsub("([^/]+)/([^/]+)/(.*)", "\\1_\\2_\\3", dt$name)
cSplit(dt, "name", "_", drop=F)

#           name   y name_1 name_2 name_3
# 1: abc_efg_hij 1.0    abc    efg    hij
# 2: abc_abc_hij 1.2    abc    abc    hij
# 3: efg_efg_f/j 3.4    efg    efg    f/j
# 4: abd_efj_hij 5.0    abd    efj    hij

我希望这会有所帮助。

【讨论】:

    【解决方案2】:

    你应该可以设置fixed = FALSE:

    cSplit(dt, "name", " / ", fixed = FALSE, drop = FALSE)
    ##               name   y name_1 name_2 name_3
    ## 1: abc / efg / hij 1.0    abc    efg    hij
    ## 2: abc / abc / hij 1.2    abc    abc    hij
    ## 3: efg / efg / f/j 3.4    efg    efg    f/j
    ## 4: abd / efj / hij 5.0    abd    efj    hij
    

    【讨论】:

      猜你喜欢
      • 2017-08-04
      • 2023-04-09
      • 2016-09-15
      • 1970-01-01
      • 2019-01-19
      • 2014-10-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多