【发布时间】:2012-10-02 10:19:51
【问题描述】:
我有一个小问题。 我正在处理一个关键字字符串,它来自不同的提供商(我无法控制),他们都以不同的格式发送字符串。
字符串中的关键字可以用逗号、分号、空格或制表符分隔。 在一个字符串中,只使用一种类型的分隔符。
你会如何识别它?
我在想类似的东西(伪代码):
string delimiters = { ",",";"," " };
var x = str.split(delimiters[0]).count();
var y = str.split(delimiters[1]).count();
var z = str.split(delimiters[2]).count();
然后检查哪个是最大的并使用它。
你有更好的主意吗?
【问题讨论】:
-
我喜欢你的想法 - 尝试每一个并检查哪个给出最合理的结果。
-
你知道正确的字段数吗?
-
@TimSchmelter - 没有。它可以有 1 - 50 个关键字。但没有任何承诺。
-
请注意,在某些情况下,“最流行”的分隔符并不是最好的——例如
Bobsson, Bob;Davisson, David;Charlsson, Charlie或red one;green one;blue one. -
@Rawling 是的,我知道有很多极端情况,这就是为什么我发布这个问题,试图在我开始工作之前找出所有问题。