【发布时间】:2018-07-28 21:47:10
【问题描述】:
有没有办法在组合 quanteda 语料库(使用加号运算符)时自动创建一个指示变量,该变量可以标记文档来自哪个源语料库?例如,假设您有两个语料库,corpus1 和 corpus2。您运行以下命令:
语料库 3
我想找到一些方法来创建一个新的 docvar,以指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗?
【问题讨论】:
有没有办法在组合 quanteda 语料库(使用加号运算符)时自动创建一个指示变量,该变量可以标记文档来自哪个源语料库?例如,假设您有两个语料库,corpus1 和 corpus2。您运行以下命令:
语料库 3
我想找到一些方法来创建一个新的 docvar,以指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗?
【问题讨论】:
目前没有自动的方法,但最简单的方法是在添加语料库之前创建语料库标识符。
library("quanteda")
# Loading required package: quanteda
# Package version: 1.3.4
c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))
docvars(c1, "corpusid") <- 1
docvars(c2, "corpusid") <- 2
cc <- c1 + c2
summary(cc)
# Corpus consisting of 5 documents:
#
# Text Types Tokens Sentences corpusid
# d11 4 4 1 1
# d12 4 4 1 1
# d21 4 4 1 2
# d22 4 4 1 2
# d23 3 3 1 2
#
# Source: Combination of corpuses c1 and c2
# Created: Sun Jul 29 09:37:28 2018
# Notes:
【讨论】: