AES-CBC + HMAC 和 AES-GCM 之间的极端时间差异答案

【问题标题】：extreme difference in time between AES-CBC + HMAC and AES-GCMAES-CBC + HMAC 和 AES-GCM 之间的极端时间差异
【发布时间】：2015-05-22 11:20:06
【问题描述】：

所以我一直在广泛搜索 CBC 和 GCM 的不同 AES 实现，我不想自己实现这个，以防我出错，所以我找到了以下 AES CBC 代码并测试了它们的速度在我的 RX63NB（Rennesas 测试板）上。

                    Encrypt                 Decrypt 
                    bytes   speed (us)      bytes   speed (us)
Tiny AES            64      1500            64      8900
                    128     2880            128     17820
aes-byte-29-08-08   64      1250            64      4900
                    128     1220            128     9740
Cyclone             64      230             64      237
                    128     375             128     387

我对 Cyclone 的速度有多快感到惊讶，为了澄清我从 CycloneSSL 获取了 AES、CBC 和 Endian 文件并且只使用了这些文件。

然后我尝试了 CycloneSSl 的 GCM，这是输出：

                    Encrypt                 Decrypt 
                    bytes   speed μs        bytes   speed μs
Cyclone   GCM       64      9340            64      9340
                    128     14900           128     14900

我检查了 HMAC 时间（来自 CycloneSSL），看看需要多少时间：

HMAC        bytes   speed μs
Sha1        64      746
            128     857
Sha224      64      918
            128     1066
Sha256      64      918
            128     1066
Sha384      64      2395
            128     2840
Sha512      64      2400
            128     2840
Sha512_224  64      2390
            128     2835
Sha512_356  64      2390
            128     2835
MD5         64      308
            128     345
Whirlpool   64      5630
            128     6420
Tiger       64      832
            128     952

其中最慢的是漩涡。

如果将 128 字节的 cbc 加密时间添加到 128 字节的 whirlpool 的 hmac 中，则得到 6795 μs，大约是 GCM 所需时间的一半。

现在我可以理解，由于 galios 字段等原因，GHASH 比 HMAC 需要更长的时间，但与我所知道的最慢的 HASH 算法相比，它的速度要慢 2 倍。

所以我开始怀疑我是否做错了什么，或者 CycloneSLL gcm 的实现是否真的只是展示了。不幸的是，我还没有找到其他易于使用的 C 中的 GCM 实现与之进行比较。

我使用的所有代码都可以是found on pastebin，不同的文件用--------------------分隔

这是我使用 GCM 加密的代码：

static void test_encrypt(void)
{
  uint8_t key[] = { 0x2b, 0x7e, 0x15, 0x16, 0x28, 0xae, 0xd2, 0xa6, 0xab, 0xf7, 0x15, 0x88, 0x09, 0xcf, 0x4f, 0x3c };
  uint8_t iv[]  = { 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f };
  uint8_t in[]  = { 0x48, 0x61, 0x6c, 0x6c, 0x6f, 0x20, 0x68, 0x6f, 0x65, 0x20, 0x67, 0x61, 0x61, 0x74, 0x20, 0x68,
                    0x65, 0x74, 0x20, 0x6d, 0x65, 0x74, 0x20, 0x6a, 0x6f, 0x75, 0x20, 0x76, 0x61, 0x6e, 0x64, 0x61,
                    0x61, 0x67, 0x2c, 0x20, 0x6d, 0x65, 0x74, 0x20, 0x6d, 0x69, 0x6a, 0x20, 0x67, 0x61, 0x61, 0x74,
                    0x20, 0x68, 0x65, 0x74, 0x20, 0x67, 0x6f, 0x65, 0x64, 0x20, 0x68, 0x6f, 0x6f, 0x72, 0x2e, 0x21,
                    0x48, 0x61, 0x6c, 0x6c, 0x6f, 0x20, 0x68, 0x6f, 0x65, 0x20, 0x67, 0x61, 0x61, 0x74, 0x20, 0x68,
                    0x65, 0x74, 0x20, 0x6d, 0x65, 0x74, 0x20, 0x6a, 0x6f, 0x75, 0x20, 0x76, 0x61, 0x6e, 0x64, 0x61,
                    0x61, 0x67, 0x2c, 0x20, 0x6d, 0x65, 0x74, 0x20, 0x6d, 0x69, 0x6a, 0x20, 0x67, 0x61, 0x61, 0x74,
                    0x20, 0x68, 0x65, 0x74, 0x20, 0x67, 0x6f, 0x65, 0x64, 0x20, 0x68, 0x6f, 0x6f, 0x72, 0x2e, 0x21};

  AesContext context;
  aesInit(&context, key, 16 ); // 16 byte = 128 bit      
  error_crypto_t error = gcmEncrypt(AES_CIPHER_ALGO, &context, iv, 16, 0, 0, in, in, 128, key, 16);
}

static void test_decrypt(void)
{
  uint8_t key[] = { 0x2b, 0x7e, 0x15, 0x16, 0x28, 0xae, 0xd2, 0xa6, 0xab, 0xf7, 0x15, 0x88, 0x09, 0xcf, 0x4f, 0x3c };
  uint8_t tag[] = { 0x56, 0x56, 0x5C, 0xCD, 0x5C, 0x57, 0x36, 0x66, 0x73, 0xF7, 0xFF, 0x2A, 0x17, 0x49, 0x0E, 0xC4};
  uint8_t iv[]  = { 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f };
  uint8_t out[] = { 0x05, 0x7C, 0x51, 0xFF, 0xE4, 0x9F, 0x8C, 0x90, 0xF1, 0x7D, 0x56, 0xFB, 0x87, 0xB9, 0x44, 0x79,
                    0xB1, 0x04, 0x32, 0x39, 0x78, 0xFF, 0x51, 0x60, 0x48, 0x0B, 0x21, 0x77, 0xF2, 0x26, 0x0B, 0x94,
                    0x7B, 0xA7, 0x26, 0x74, 0x87, 0xA8, 0x2C, 0x5A, 0xA1, 0x19, 0x03, 0x17, 0x66, 0x3A, 0x46, 0x9F,
                    0xE6, 0x1D, 0x3B, 0x65, 0xFD, 0xC0, 0xBA, 0xC0, 0xD9, 0x45, 0xE7, 0x17, 0x74, 0x0F, 0xB7, 0x4B,
                    0x0F, 0xF0, 0x16, 0xF6, 0xE8, 0x4F, 0xFD, 0x96, 0x64, 0x5E, 0xDB, 0x9E, 0x3A, 0x0B, 0x93, 0x8F,
                    0x87, 0x83, 0x90, 0xF8, 0xF9, 0xE6, 0xA3, 0xE7, 0x5E, 0x72, 0x3C, 0xB5, 0x98, 0x54, 0x11, 0xD7,
                    0xB4, 0x7C, 0xFF, 0xA3, 0x51, 0x1A, 0xB0, 0x69, 0x4F, 0x57, 0xBB, 0x83, 0x40, 0x2A, 0xE6, 0x75,
                    0x8B, 0xB5, 0xCA, 0xA4, 0x84, 0x82, 0x1D, 0xA8, 0x94, 0x03, 0x77, 0x9C, 0x3B, 0xF8, 0xA0, 0x60};

  AesContext context;
  aesInit(&context, key, 16 ); // 16 byte = 128 bit
  error_crypto_t error = gcmDecrypt(AES_CIPHER_ALGO, &context, iv, 16, 0, 0, out, out, 128, tag, 16);
}

out[] 中的数据是 in[] 中的 gcm 加密数据，并且一切正常。（正确解密并通过身份验证。

问题

所有 GCM 实现都这么慢吗？
还有其他（更好的）GCM 实现吗？
如果我想要快速加密 + 验证，我应该只使用 HMAC 吗？

编辑

我已经能够从mbedTLS (PolarSSL) 获得 GCM 方法，它比旋风分离器快 11 倍（加密/解密 128 个字节需要 880us）。它产生与 cylcone GCM 相同的输出，所以我相信它可以正常工作。

gcm_context gcm_ctx;
gcm_init(&gcm_ctx, POLARSSL_CIPHER_ID_AES,key, 128);
int error = gcm_auth_decrypt(&gcm_ctx, 128,iv, 16, NULL, 0, tag, 16, out, buffer );

【问题讨论】：

这可能归结于您的板子的并行能力（或缺乏并行能力），这是一个合理的猜测吗？ en.wikipedia.org/wiki/Galois/Counter_Mode#Performance

标签： c cryptography aes-gcm

【解决方案1】：

您的数字看起来很奇怪，aes-byte-29-08-08 的 128 字节加密所需的时间少于 64 字节？

假设RX63N和Cortex-M相当（都是32位，没有向量单元，很难找到RX63N的信息）：

SharkSSL 声称的基准使 CBC 的速度是 GCM 的两倍多，如果针对速度进行了优化，则为 2.6。 9340 比 340 大很多。

Cifra 的基准测试显示他们的 AES 和 AES-GCM 之间存在 10 倍的差异，尽管 GCM 测试还包括 auth-data。仍然远未接近直接 AES 和 GCM 之间的差异。

所以相对而言，要回答 1，相对于普通 AES，我认为并非所有 GCM 实现都那么慢。

至于其他 GCM 实现，还有前面提到的 Cifra（虽然我直到现在才听说，而且它在 GitHub 上只有 3 颗星（如果这意味着什么的话），所以审核的级别很可能是相当低），也许您可以从FreeBSD 中删除AES-GCM 实现。尽管在您的平台上绝对不能谈论性能。

HMAC 在没有硬件支持（如 AES-NI 支持）的平台上可能会更快（CLMUL），无论实现如何。这对性能有多重要？您必须使用 AES 还是分组密码？也许 ChaCha20+Poly1305 更适合您的性能需求（请参阅 Cifra 的性能数据）。这现在被用于OpenSSH - chacha.* 和 poly1305.*

注意旁道攻击。 AES 的软件实现可能对缓存定时攻击很敏感，尽管我认为这不适用于所有东西都在 SRAM 中的微控制器。

*Salsa20 是 ChaCha20 的前身

【讨论】：

我已经测试了 Cifra 代码，但这需要 300+ 毫秒的 128 个字节，所以它在 rx63n 上肯定不快。我曾尝试获取 SharkSSL 源代码，但我只能下载 .exe 文件。没有真正的代码，所以这很糟糕。
CBC 需要 250 毫秒的 cifra 代码。与 cycloneSSL 相比，速度上的差异是巨大的。可能是因为 cifra 是为其他控制器制作的。我需要使用 AES，我们可以使用 AES 进行初始部分，然后切换到更快的流密码，但 AES 是强制性的，并且在 cbc 模式下查看它的速度我认为这不会是一个问题。我只是希望我们能做 GCM，HMAC sha256 仍然在 1 毫秒以下，这已经足够快了，我只是无法理解为什么 GCM 需要这么长时间。
只有 128 个字节的 1/3 秒是荒谬的，而且比其他所有内容都高出几个数量级。 300ms*100MHz（微控制器的最大时钟）是每字节 234375 个周期，或每块 3,750,000 个周期，这比公布的数字多 750（！）倍。这是一个非常不可能的差异，并且“为其他微控制器制造”并没有解释它，因为每个字节的差异可能小于 10。无论如何，它是一个通用的 C 实现，所以没有真正针对任何东西进行优化.肯定会发生其他事情。
有没有一种方法可以直接从寄存器而不是时间值中获取周期计数？也许时钟频率没有始终如一地配置？
作为比较，台式 PC 处理器能够执行 AES 12 个周期/字节以优化汇编实现。为 Cortex M 上的 Cifra 给出的数字计算得出每个字节 193 个周期（277 w/调度），相差 19 倍，远小于 750。这是两个截然不同的 CPU，桌面更能够超标量和输出顺序，每个时钟的差异是“仅”19x