【发布时间】:2018-02-16 21:51:56
【问题描述】:
我有一个包含 2 个和 3 个单词的数据框。 我想过滤掉一些具有相同模式的特定字符串。
df <- data.frame(word = c("thin film", "film resistor", "thin film resistor",
"protection material", "protection material removed",
"protection layer", "interconnect metal"))
>df
words
1 thin film
2 film resistor
3 thin film resistor
4 protection material
5 protection material removed
6 protection layer
7 interconnect metal
我想过滤掉具有重复字符串模式的字符串。
所以这就是我想要的。
words
1 thin film resistor
2 protection material removed
3 protection layer
4 interconnect metal
【问题讨论】:
-
您能详细说明删除内容的确切逻辑吗?看起来就像“如果有至少共享 2 个单词的字符串,则保留该集合中最长的字符串” - 对吗?或者你能更好地解释一下吗?
-
不清楚为什么
protection layer和interconnect metal在所需的输出中。我认为它们是独一无二的。 -
Marius:是的,你的解释正是我想要描述的。 “如果有字符串共享至少 2 个单词,则保留该集合中最长的字符串”。因为我的数据框包含部分重复的字符串。重复的字符串对我没有用。我只想在我的数据框中保留最长的字符串。