【发布时间】:2021-11-29 01:14:00
【问题描述】:
我目前正在进行情绪分析的数据清理工作,并且正在使用数据框形式的大型新闻文章数据集。我需要能够分析数据框的每行一篇文章,并且正在寻找一种方法来删除第一个“======”和第二个“======”之间的换行符,重复贯穿整个数据框。此外,在内容“折叠到自身”之后,我希望保留发布者和日期列。
df <- matrix(c("======","NA","NA","Daily Bugle Dec 31","Daily Bugle", "Dec 31" ,"Wookies are","NA","NA",". recreationally", "NA","NA", "using drugs at a", "NA", "NA", "higher rate than", "NA", "NA","ever before.", "NA", "NA","======", "NA", "NA" ),ncol=3,byrow=TRUE)
colnames(df) <- c("content","publisher","date")
df <- as.data.frame(df)
df[ df == "NA" ] <- NA
给出这个:
content publisher date
====== <NA> <NA>
Daily Bugle, Dec 31 Daily Bugle Dec 31
Wookies are <NA> <NA>
recreationally <NA> <NA>
using drugs at a <NA> <NA>
higher rate than <NA> <NA>
ever before. <NA> <NA>
====== <NA> <NA>
我想要这样的东西:
content publisher date
======
Wookies are recreationally using drugs at a hig... Daily Bugle Dec 31
======
Article 2
======
Article 3
======
希望这很清楚。我对 R 比较陌生。
【问题讨论】:
-
您可以通过添加minimal reproducible example 来提高在这里找到帮助的机会。添加 MRE 和所需输出的示例(以代码形式,而不是表格和图片)使其他人更容易找到和测试您的问题的答案。这样你就可以帮助别人帮助你!附言这里是a good overview on how to ask a good question
-
感谢您的提示,达里奥!我是新手,所以感谢所有帮助。我会将其编辑为问题的更好版本。
-
在某些时候你会想要
gsub('[\\.]', '', df1$content)为 '.'不会对情绪分析有太多帮助。