【发布时间】:2019-04-26 12:17:42
【问题描述】:
我有一列有 5000 行。我的目标是检查每一行是否有重复的单词。例如:
第一行:我叫鲍比
第二排:我叫鲍比
第三排:这是你的房子
从上面的例子我们可以看出,第一行和第二行之间有3个重复词,第二行和第三行之间只有1个重复词。我想让每行有 3 个或更多重复单词成为同一个单词。例如:
我叫鲍比
我叫鲍比
这是你的家
我是 r 的新手。你能帮帮我吗?
【问题讨论】:
-
您是否总是希望使用数据框中的第一行来替换后面的行?如果您也有一行
My cat is Boby怎么办?在这种情况下应该怎么办? -
看你给出的例子,在我看来你想做模糊替换。如果我是对的,您可能需要检查 stringdist 包。
-
尽管已经发布了答案,但这是一个非常不清楚的问题。
标签: r string duplicates