【问题标题】:How to convert a tokens object into a corpus object如何将标记对象转换为语料库对象
【发布时间】:2021-10-16 01:01:12
【问题描述】:

我有一个corpus object,我将其转换为tokens object。然后我过滤了这个对象以删除单词并统一它们的拼写。 对于我进一步的工作流程,我再次需要一个语料库对象。如何从令牌对象构造它?

【问题讨论】:

  • 你需要一个“标记化的语料库对象”是什么意思?如果您将标记对象转换为语料库,那么它将不再被标记。
  • 谢谢,我的错误 - 我需要一个语料库对象,然后使用 corpus_reshape 进行转换。

标签: r quanteda


【解决方案1】:

您可以将标记粘贴在一起以返回新的语料库。 (虽然如果您的目标是回到语料库以便您可以使用corpus_reshape(),这可能不是最好的方法。)

library("quanteda")
## Package version: 3.1.0
## Unicode version: 13.0
## ICU version: 69.1
## Parallel computing: 12 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

txt <- c(
  "This is an example.",
  "This, a second example."
)

corp <- corpus(txt)

toks <- tokens(corp) %>%
  tokens_remove(stopwords("en"))
toks
## Tokens consisting of 2 documents.
## text1 :
## [1] "example" "."      
## 
## text2 :
## [1] ","       "second"  "example" "."

vapply(toks, paste, FUN.VALUE = character(1), collapse = " ") %>%
  corpus()
## Corpus consisting of 2 documents.
## text1 :
## "example ."
## 
## text2 :
## ", second example ."

【讨论】:

    猜你喜欢
    • 2021-12-16
    • 1970-01-01
    • 2011-10-10
    • 2022-01-23
    • 1970-01-01
    • 1970-01-01
    • 2015-02-27
    • 2018-02-13
    • 2011-05-26
    相关资源
    最近更新 更多