【问题标题】:Find all strings of length 1 through N in String of length N在长度为 N 的字符串中查找长度为 1 到 N 的所有字符串
【发布时间】:2016-07-09 19:22:53
【问题描述】:

我正在尝试查找字符串中的所有子字符串。也就是说,长度为 N 的字符串中长度为 1 到 N 的所有字符串。

示例

N = '1079'
subStrings = [1,0,7,9,10,07,79,107,079,1079]

第一次尝试

我有一个解决方案适用于相对较小的 N 字符串,但在较大的 N 上,解决方案非常慢。这是当前的解决方案:

N = 'somestring'
l = N.length
k = 1
subStrings = []

while (k <= l) {
  i = 0
  while (i + k <= l) {
    subStrings.push(N.slice(i,k+i))
    i++
  } 
  k++
}

// subStrings is an array containing the substrings

如何提高算法的性能以返回所有子字符串?

【问题讨论】:

  • 您的代码中的v 是什么?指定结果慢的数字
  • 复制的残余,已更新。
  • 不应该 subints 排除 1079 吗?这个问题也是关于工作代码的性能改进,更多属于codereview.stackexchange.com
  • 那么,它在多少长度时会变慢?
  • 它应该包括完整的整数,所以“子整数”可能是一个糟糕的术语。

标签: javascript algorithm performance


【解决方案1】:

正如其他评论者所指出的,这里没有太多需要改进的地方。这可能是最好的 javascript 版本,应用了两个优化:

  1. slice 改为增长字符串。

注意:这似乎只对长数字序列和小集合有帮助。经过足够的迭代,V8 对 noslice 进行了足够的预热优化,使其比这种“增长字符串”方法更快。有关此现象的讨论,请参见 cmets。

  1. while 循环更改为for 循环。出于某种原因,这使它快了 100 毫秒。(似乎速度的提高是因为代码中的错误,感谢@le_m 的注意)

var start = new Date().getTime();

N = '23692719352345230452034523045823751925012830428043850348503834702834028305724087283409823058402897345982735402934579823750982734590123457239845723972345897234958732495872384957239846752397459327459238645972634598236452389457629346592387465923108457429386419659217834595873459872349576239487523947859872593487529384577823419823641829375412938742119482739107423481290734981236591206752871439071452398457213864957613593184721398471329874129083471293874219356129375421304712938743467812938461239561239874673291847129836451923865449825129873432874192837549281735892317432098491273498123675491238412635496213421394752369271935234523045203452304582375192501283042804385034850383470283402830572408728340982305840289734598273540293457982375098273459012345723984572397234589723495873249587238495723984675239745932745923864597263459823645238945762934659238746592310845742938641965921783459587345987234957623948752394785987259348752938457782341982364182937541293874211948273910742348129073498123659120675287143907145239845721386495761359318472139847132987412908347129387421935612937542130471293874346781293846123956123987467329184712983645192386544982512987343287419283754928173589231743209849127349812367549123841263549621342139475236927193523452304520345230458237519250128304280438503485038347028340283057240872834098230584028973459827354029345798237509827345901234572398457239723458972349587324958723849572398467523974593274592386459726345982364523894576293465923874659231084574293864196592178345958734598723495762394875239478598725934875293845778234198236418293754129387421194827391074234812907349812365912067528714390714523984572138649576135931847213984713298741290834712938742193561293754213047129387434678129384612395612398746732918471298364519238654498251298734328741928375492817358923174320984912734981236754912384126354962134213947523692719352345230452034523045823751925012830428043850348503834702834028305724087283409823058402897345982735402934579823750982734590123457239845723972345897234958732495872384957239846752397459327459238645972634598236452389457629346592387465923341084574293864196592178345958734598723495762394875239478598725934875293845778234198236418293754129387421194827391074234812907349812365912067528714390714523984572138649576135931847213984713298741290834712938742193561293754213047129387434678129384612395612398746732918471298364519238654498251298734328741928375492817358923174320984912734981236754912384126354962133243242139475';

l = N.length;
k = 1;
subInts = [];

for (i = 0; i < l; i++) {
  num = "";
  for (k = 1; k < l-i+1; k++) {
    num += N.charAt(i+k-1);
    subInts.push(num);
  }
} 

var end = new Date().getTime();
var time = end - start;
document.body.textContent = 'Execution time: ' + time + '; Elements: ' + subInts.length;

【讨论】:

  • 我猜分支预测是 for 循环更快的原因。不断增长的字符串想法无疑是一个很好的想法:)
  • 奇怪,这段代码向我显示了 Chrome v51 中 time 的大约 4000 个
  • @RomanPerekhrest 原始版本呢? codepen.io/brettdewoody/pen/yJzooq?editors=0011
  • @bezmax,它向我展示了 Execution time: 721for 循环
  • 对于输入"123",您的代码将返回["1", "12", "2"] - 编写k &lt; l-i+1 可以解决此问题。可能会解释 100 毫秒的性能。改进:)
【解决方案2】:

您无法采取任何措施来显着提高您的表现。如果您仔细观察,您会发现对于长度为n 的字符串,您将生成n * (n + 1) / 2 元素。所以你的算法是O(n^2)

对于 2500 长度的字符串,您最终将进行大约 600 万次操作。难怪您的 javascript 需要一秒钟以上的时间才能做到这一点。


P.S.这是我的实现方式,你可以测试一下,可能会快一点。

arr = n.toString().split('')
l = arr.length
for (var i=0; i < l + 1; i++){
   for (var j = i + 1; j < l + 1; j++){
     console.log(arr.slice(i, j).join())
   }
}

【讨论】:

    【解决方案3】:

    您的实施已经非常快了。但是您可以使用一种常用技术将性能提高约 10%(在 Chrome / V8 上):预分配

    我们知道总共会有l * (l + 1) / 2 个子序列。使用该信息通过subStrings = new Array(l * (l + 1) / 2) 预分配subStrings 数组并将subStrings.push(...) 替换为subStrings[n] = ...

    function subsequences(s) {
      var l = s.length, n = 0, k = 1,
          result = new Array(l * (l + 1) * .5);
    
      while (k <= l) {
        var i = 0;
        while (i + k <= l) {
          result[n++] = s.slice(i, k + i);
          i++;
        } 
        k++;
      }
      return result;
    }
    

    即使您引入了一个额外的计数器变量,通过将动态增长的数组替换为静态数组所获得的性能提升也是显着的。

    请参阅https://jsfiddle.net/sqhtzyyp/5/ 以获得基准。尤其是在几次运行之后 - 当优化编译器启动时 - 使用切片进行预分配优于所有其他实现(仅在 Chrome / Node / V8 上测试)。

    Chrome 中不同字符串长度(16、640 和 2447 个字符)的性能比较:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-12-14
      • 2013-12-22
      • 2017-04-19
      • 2021-06-14
      • 1970-01-01
      • 2011-12-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多