【问题标题】:Comparing strings based on similarity?基于相似性比较字符串?
【发布时间】:2025-12-13 15:25:06
【问题描述】:

我有一组格式正确的电话号码:

string[] phoneNumbers = {"US +1 866 XXX XXXX",
                         "UK +44 (0)XXX XXX XXXX",
                         "Singapore +65 XXXX XXXX"
                        };

我作为输入获得的电话号码对应于列表中的这些项目之一,但它的格式略有不同。输入可以是这 3 种之一。请注意,不包括开头的国家/地区名称。

  • (866) XXX-XXXX
  • +44 (0) XXX XXXXXX
  • +65 XXXXXXXX

如您所见,我的输入与数组的格式略有不同。

我的问题是,当我有一个格式不同的输入时,有什么好方法可以从数组中提取正确格式的数字版本。

我不是要求别人为我做这件事,因为我可以很好地编写代码。出于某种原因,这种逻辑现在让我很着迷。

我想做的是一个并行电话号码数组,其中包含所有格式不正确的输入,并获取该数组中项目的索引并获取正确数组的相应输入。这看起来合乎逻辑吗?有没有更好更快的方法?


编辑:

目前我正在完成这项工作:

                for(int i=0; i<phoneNumbers.Count(); i++)
                {
                    var tempDialInNumber = (from t in input //input from the user
                                            where char.IsDigit(t)
                                            select t).ToArray();
                    string tDialInNumber = new string(tempDialInNumber);

                    var tempDigitPhoneNumber = (from t in phoneNumbers.GetValue(i).ToString()
                                            where char.IsDigit(t)
                                            select t).ToArray();

                    string tDigitPhoneNumber = new string(tempDigitPhoneNumber);

                    if (tDigitPhoneNumber.Contains(tDialInNumber))
                    {
                        dialInNumber = phoneNumbers.GetValue(i).ToString(); 
                    }

                }

【问题讨论】:

标签: string algorithm fuzzy-search


【解决方案1】:

这样做的规范方法是:

  1. 将您的数据转换为规范形式。
  2. 对规范形式进行愚蠢的比较。

【讨论】:

    【解决方案2】:

    我会尝试使用这个http://en.wikipedia.org/wiki/Levenshtein_distance 1st。

    根据错误率,我将通过对组中的字符串进行预分类来调整算法(您可以使用正则表达式生成字符串类)并使用 Levenshtein 比较类内部。

    另一种方法是根据字符串模式创建Bloom filter,然后使用它来匹配您想要的字符串。我不确定它是否会更好地处理您的情况。

    【讨论】:

      【解决方案3】:

      似乎如果您忽略 '+' 和括号以及前导 1 和空格,那么您将在国家代码集中获得前 2 或 3 位数字的匹配。因此,您可以删除“+”、括号和空格以及前导“1”1,然后查看前导数字匹配的前导国家代码,然后检查尾随数字的数量是否与您对该国家/地区的预期相符(否则匹配的国家/地区是“未知”)。请注意,如果国家/地区代码以“1”开头,则该国家/地区的前导代码有两个可能的匹配项。此外,如果数字计数与美国数字计数相匹配,并且一个国家/地区不匹配,则它是美国数字。然后,一旦您知道国家/地区,您可以将电话号码的数字放入该国家/地区的标准模板中,如果您愿意,可以将国家/地区的名称放在前面,然后就完成了。

      【讨论】: