【发布时间】:2019-09-16 20:23:15
【问题描述】:
我正在尝试从现有数据框 TopWords 创建一个新数据框。原始数据框data_to_export 字数过多(bios),我想只保留经常使用的字词(bios),但我还需要保留与每个字词关联的 ID 号。
这是我想出的,但它不起作用。它不喜欢if 条件语句,但我不知道该怎么做。
TopWords<- data_to_export if freq_terms(data_to_export$bios2 > 4)
我希望得到来自data_to_export 的相同数据,但只针对单词出现五次或更多次的案例的数据。
例如,
data_to_export (original data)
ID bios2
1 i
1 love
1 playing
1 soccer
2 i
2 am
2 a
2 teacher
2 mom
2 grandma
2 sister
3 i
3 think
3 soccer
3 is
3 the
3 best
4 soccer
4 player
5 i
5 like
5 soccer
5 i
5 could
5 play
5 soccer
5 all
5 day
New data frame:
1 i
1 soccer
2 i
3 i
3 soccer
4 soccer
5 i
5 soccer
5 i
5 soccer
任何帮助将不胜感激。谢谢!
【问题讨论】:
-
如果您包含一个简单的reproducible example,其中包含可用于测试和验证可能解决方案的示例输入和所需输出,则更容易为您提供帮助。
-
我现在尝试在上面添加一个示例。谢谢!
-
freq_terms来自哪里?那行代码不是标准的 R 语法——我不知道你可以只输入数据框的名称,然后直接进入这样的 if 语句 -
使用
dplyr,可以做到data_to_export %>% group_by(bios2) %>% filter(n() > 4) -
camile,它来自
qdap包
标签: r dataframe nlp data-cleaning