合并 quanteda 语料库时语料库源的 Docvar 指标

【问题标题】：Docvar indicator for corpus source when combining quanteda corpora合并 quanteda 语料库时语料库源的 Docvar 指标
【发布时间】：2018-07-28 21:47:10
【问题描述】：

有没有办法在组合 quanteda 语料库（使用加号运算符）时自动创建一个指示变量，该变量可以标记文档来自哪个源语料库？例如，假设您有两个语料库，corpus1 和 corpus2。您运行以下命令：

语料库 3

我想找到一些方法来创建一个新的 docvar，以指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗？

【问题讨论】：

标签： r quanteda

【解决方案1】：

目前没有自动的方法，但最简单的方法是在添加语料库之前创建语料库标识符。

library("quanteda")
# Loading required package: quanteda
# Package version: 1.3.4


c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))

docvars(c1, "corpusid") <- 1
docvars(c2, "corpusid") <- 2

cc <- c1 + c2
summary(cc)
# Corpus consisting of 5 documents:
#     
#     Text Types Tokens Sentences corpusid
# d11     4      4         1        1
# d12     4      4         1        1
# d21     4      4         1        2
# d22     4      4         1        2
# d23     3      3         1        2
# 
# Source: Combination of corpuses c1 and c2
# Created: Sun Jul 29 09:37:28 2018
# Notes:

【讨论】：