【发布时间】:2014-12-27 11:15:44
【问题描述】:
我在 C++ 和 Java 中都为 md5 实现了一个暴力破解器,并且对为什么它们的效率会有所不同存在疑问。
数据和复杂度图(密码的 E^长度)与时间的关系在这里:http://i.imgur.com/hckCe8f.png
密码是简单的“b”重复以填充长度
在 C++ 中,我使用了 md5 的这个实现:zedwood.com/article/cpp-md5-function
在 Java 中,我使用了这个站点上的第二个实现:http://www.asjava.com/core-java/java-md5-example/
在递归 C++ 实现中,我的循环代码是在一个单独的类中完成的:
class bruteChar {
string charset;
char last_char;
string str;
string double_start;
char reverse_charset[256];
private:
string next(string s)
{
size_t length = s.size()-1;
if(length == 0)
{
if( s[0]==last_char)
return double_start;
return string(1, charset[reverse_charset[s[length]]+1]);
}
if(s[length] == last_char)
return next(s.substr(0,length))+charset[0];
else
return str.substr(0,length)+string(1, charset[reverse_charset[s[length]]+1]);
};
public:
void start (string chars)
{
charset = chars;
str=charset[0];
last_char=charset[charset.size()-1];
double_start=charset[0];
double_start+=charset[0];
for(size_t i = 0; i < charset.size(); ++i)
reverse_charset[charset[i]]=i;
reverse_charset[charset[charset.size()]]=0;
}
string next()
{
str=next(str);
return str;
}
};
在 Java 中我使用了一个自定义类
public class picochar {
public static char[] charset = "abcdefghijklmnopqrstuvwxyz0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ".toCharArray();
int num;
int mod;
picochar(int init, int mod)
{
num = init%mod;
}
picochar(char init, int mod)
{
for(int i = 0; i < mod; i++)
{
if(charset[i] == init)
num = i;
}
}
public char get()
{
return charset[num];
}
public boolean equals(char ch)
{
return (get() == ch);
}
public void increment()
{
num++;
}
}
还有下面的方法
public static String next(String s) {
int length = s.length();
picochar pc = new picochar(s.charAt(length - 1),mod);
if(pc.equals(picochar.charset[mod-1]))
return length > 1 ? next(s.substring(0, length - 1)) + 'a' : "aa";
pc.increment();
return s.substring(0, length - 1) + pc.get();
}
为什么 Java 在计算哈希方面比 C++ 更高效?
我是不是简单地为 Java 使用了一个高效的 MD5 实现,而为 C++ 使用了一个糟糕的实现?
我认为 C++ 会比 Java 快得多,因为 Java 必须通过 JVM 运行所有内容,而 C 则在本地完成。
然而,Java 远胜过 C++ 解决方案。如果这仅仅是因为我的 C++ 程序编码不佳,我将如何解决这个问题?
编辑删除了不同的 C++ 程序,现在两个解决方案都递归循环。
我计算了在没有散列的情况下循环需要多长时间,这里 Java 的速度是 C 的两倍,@Dunes 对此进行了解释。当重新编码为不递归使用 substr() 而是改变原始字符串时,C 的速度大约是 Java 的两倍。
我对“hello”1 在经过几秒钟的哈希运算后,C++ 会获得类似的性能提升,但提升幅度远不及 Java。
那么为什么 Java 的预热效果更好?
【问题讨论】:
-
我会尽量让代码更相似。 C++ 和 Java 看起来不应该如此不同。这些差异很可能解释了性能差异。
-
好吧,正如您所说,您需要比较相同的实现。如果操作正确,C++ 通常可能会更快。附带说明:这不仅仅是因为 JIT。
-
另一个区别是您使用不同的 MD5 库,这是您的程序应该花费更多时间的地方。在查看您的代码之前,我会尝试查看这些库的性能比较。
-
C/C++ 比 Java 快是一个神话。如果您编写相同的东西,运行时间将是相同的(由于其内部优化,在 Java 上可能更快)。声称 C/C++ 更快的人要么在使用优化的库,要么在编写糟糕的 Java 代码。
标签: java c++ performance md5 brute-force