【发布时间】:2015-06-17 20:31:28
【问题描述】:
有点奇怪的问题,有没有办法将已经使用 tm 中的语料库功能导入的语料库文档拆分为多个文档,然后可以在我的语料库中作为单独的文档重新阅读?例如,如果我使用
inspect(documents[1]) 有类似的东西
`<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>`
`[[1]]`
`<<PlainTextDocument (metadata: 7)>>`
The quick brown fox jumped over the lazy dog
I think cats are really cool
I want to split after this line!!!
Hi mom
Purple is my favorite color
I want to split after this line!!!
Words
And stuff
我想在“我想在这一行之后分割!!!”这句话之后分割文档在这种情况下出现两次,这可能吗?
使用inspect(documents)后的最终结果是这样的
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>敏捷的棕狐跳过了懒狗
我觉得猫真的很酷
我想在这条线之后拆分!!!
[[2]]
<<PlainTextDocument (metadata: 7)>>你好妈妈
紫色是我最喜欢的颜色
我想在这条线之后拆分!!!
[[3]]
<<PlainTextDocument (metadata: 7)>>单词
还有东西
【问题讨论】:
-
也许你可以操纵内部,但为什么呢?你想达到什么目的?你是否例如想要为小节生成单独的词频或 tfidf 矩阵?
-
我有代码可以从许多格式相同的文档中提取数据,但事实证明,“真实”数据(与我被允许在办公室计算机上使用的测试数据相反)具有PDF 合并而不是拆分。我认为在 R 中处理它比手动拆分数百个文档更容易
标签: regex r split tm text-analysis