【发布时间】:2012-02-01 13:48:30
【问题描述】:
我有一个包含两列的 CSV 文件:
cat @ c a t
dog @ d o g
bat @ b a t
为了简化交流,我在这个例子中使用了英文字母,但我处理的是 UTF-8 中的 CJK。
我想删除第二列中出现的任何字符,该字符出现在第一列中少于 20 行(字符可以是数字、字母、汉字和标点符号,但不能是空格)。
例如,如果“o”出现在第一列的 15 行中,则从第二列中删除所有出现的“o”。如果“a”出现在第一列的 35 行中,则不做任何更改。
- 不得更改第一列。
- 我不需要计算一个字母在一行中出现的次数。例如“robot”有2个o,但这个细节并不重要,只是“robot”有一个“o”,所以算作一行。
如何删除出现次数少于 20 次的字符?
【问题讨论】: