【问题标题】:Docvar indicator for corpus source when combining quanteda corpora合并 quanteda 语料库时语料库源的 Docvar 指标
【发布时间】:2018-07-28 21:47:10
【问题描述】:

有没有办法在组合 quanteda 语料库(使用加号运算符)时自动创建一个指示变量,该变量可以标记文档来自哪个源语料库?例如,假设您有两个语料库,corpus1corpus2。您运行以下命令:

语料库 3

我想找到一些方法来创建一个新的 docvar,以指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗?

【问题讨论】:

    标签: r quanteda


    【解决方案1】:

    目前没有自动的方法,但最简单的方法是在添加语料库之前创建语料库标识符。

    library("quanteda")
    # Loading required package: quanteda
    # Package version: 1.3.4
    
    
    c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
    c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))
    
    docvars(c1, "corpusid") <- 1
    docvars(c2, "corpusid") <- 2
    
    cc <- c1 + c2
    summary(cc)
    # Corpus consisting of 5 documents:
    #     
    #     Text Types Tokens Sentences corpusid
    # d11     4      4         1        1
    # d12     4      4         1        1
    # d21     4      4         1        2
    # d22     4      4         1        2
    # d23     3      3         1        2
    # 
    # Source: Combination of corpuses c1 and c2
    # Created: Sun Jul 29 09:37:28 2018
    # Notes:
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多