【问题标题】:Corpus object missing text语料库对象缺少文本
【发布时间】:2020-01-11 16:09:36
【问题描述】:

在 R 中使用“tm”库。

应用此代码时:

abstract <- VectorSource(data$Abstract)

它有效并给出了这样的结果:

[1] Accurate text...
[2] Accurate text...
[3] Accurate text...

然后我把它变成一个 Corpus 对象,这样我就可以对它进行进一步的聚类分析。

abstract <- tm::Corpus(tm::VectorSource(data$Abstract)) 

在检查原始数据时,我发现它在将其转换为数据框时将行保存为 NULL:

dataframe <- data.frame(text=unlist(sapply(abstract, `[`, "content")), 
                        stringsAsFactors=F)
text
1   NA
2   NA
3   NA
4   NA
5   NA
6   NA
7   NA
8   NA
Showing 1 to 8 of 23,600 entries, 1 total columns

所以我不知道如何特别将文本变成语料库。

【问题讨论】:

    标签: r text-mining tm corpus


    【解决方案1】:

    我会用这个回答我自己的问题:

    writeLines(as.character(abstract[[1]]))
    content(abstract[[1]])
    

    但仍然不知道如何获得完整的列作为结果。

    【讨论】:

      猜你喜欢
      • 2015-12-11
      • 1970-01-01
      • 2014-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-21
      • 1970-01-01
      • 2019-12-14
      相关资源
      最近更新 更多