带有 unordered_map 的模板代码膨胀答案

【问题标题】：Template code bloat with unordered_map带有 unordered_map 的模板代码膨胀
【发布时间】：2012-06-25 11:09:44
【问题描述】：

我想知道unordered_map 是否使用类型擦除来实现，因为unordered_map<Key, A*> 和unordered_map<Key, B*> 可以使用完全相同的代码（除了强制转换，这是机器代码中的无操作）。即两者的实现都可以基于unordered_map<Key, void*>来节省代码大小。

更新：这种技术通常被称为Thin Template Idiom（感谢下面的评论者指出这一点）。

更新 2： 我对 Howard Hinnant 的意见特别感兴趣。让我们希望他能读到这篇文章。

所以我写了这个小测试：

#include <iostream>

#if BOOST
# include <boost/unordered_map.hpp>
  using boost::unordered_map;
#else
# include <unordered_map>
  using std::unordered_map;
#endif

struct A { A(int x) : x(x) {} int x; };
struct B { B(int x) : x(x) {} int x; };

int main()
{
#if SMALL
    unordered_map<std::string, void*> ma, mb;
#else
    unordered_map<std::string, A*> ma;
    unordered_map<std::string, B*> mb;
#endif

    ma["foo"] = new A(1);
    mb["bar"] = new B(2);

    std::cout << ((A*) ma["foo"])->x << std::endl;
    std::cout << ((B*) mb["bar"])->x << std::endl;

    // yes, it leaks.
}

并通过各种设置确定编译输出的大小：

#!/bin/sh

for BOOST in 0 1 ; do
    for OPT in 2 3 s ; do
        for SMALL in 0 1 ; do
            clang++ -stdlib=libc++ -O${OPT} -DSMALL=${SMALL} -DBOOST=${BOOST} map_test.cpp -o map_test
            strip map_test
            SIZE=$(echo "scale=1;$(stat -f "%z" map_test)/1024" | bc)
            echo boost=$BOOST opt=$OPT small=$SMALL size=${SIZE}K
        done
    done
done

事实证明，在我尝试的所有设置下，unordered_map 的大量内部代码似乎被实例化了两次：

With Clang and libc++:
          |   -O2   |   -O3   |   -Os
-DSMALL=0 |  24.7K  |  23.5K  |  28.2K
-DSMALL=1 |  17.9K  |  17.2K  |  19.8K


With Clang and Boost:
          |   -O2   |   -O3   |   -Os
-DSMALL=0 |  23.9K  |  23.9K  |  32.5K
-DSMALL=1 |  17.4K  |  17.4K  |  22.3K


With GCC and Boost:
          |   -O2   |   -O3   |   -Os
-DSMALL=0 |  21.8K  |  21.8K  |  35.5K
-DSMALL=1 |  16.4K  |  16.4K  |  26.2K

（使用 Apple Xcode 的编译器）

现在的问题是：是否有一些令人信服的技术原因导致实施者选择省略这个简单的优化？

另外：为什么-Os 的效果与宣传的完全相反？

更新 3：

按照 Nicol Bolas 的建议，我使用 shared_ptr<void/A/B> 而不是裸指针（使用 make_shared 创建并使用 static_pointer_cast 强制转换）重复测量。结果的趋势是一样的：

With Clang and libc++:
          |   -O2   |   -O3   |   -Os
-DSMALL=0 |  27.9K  |  26.7K  |  30.9K
-DSMALL=1 |  25.0K  |  20.3K  |  26.8K


With Clang and Boost:
          |   -O2   |   -O3   |   -Os
-DSMALL=0 |  35.3K  |  34.3K  |  43.1K
-DSMALL=1 |  27.8K  |  26.8K  |  32.6K

【问题讨论】：

'Type-erasure' 在涉及 C++ 时往往指的是一种非常特殊的技术，但这里不是这样。据我所知，尽管它是一种已知技术，但根据另一种专业化（或通用实现）编写部分专业化的技术没有特定的名称。（不过有人确实建议使用“薄模板”。）
您是否考虑过由于生命周期和所有权问题，将裸指针存储在标准库容器中通常不是一个好主意？良好的现代 C++ 编程实践建议使用 unique_ptr、shared_ptr 或其他形式的智能指针，而不是裸指针。此时您的瘦模板“优化”的价值为零。
很奇怪，但我很满意（并且不是很惊讶）看到可执行文件的大小总是更小，当使用优化速度编译时，比使用优化尺寸编译时。
@NicolBolas：当然，智能指针更好，但为了论证，我简化了问题。智能指针仍然可以进行相同的优化，只需将您的实现基于some_ptr<void> 并使用static_pointer_cast。见上文。
@NicolBolas：当然，您不能转换unique_ptrs，但您可以转换底层原始指针。当然，所有智能指针类型都必须这样做，但这可以通过模板模板和enable_if 来检测（支持的）智能指针来完成。同样，这并不是为了让库实现者的生活更轻松，而是为了让库用户更轻松。在我的应用程序中，我确实需要许多不同指针类型的unordered_maps。

标签： c++ boost unordered-map type-erasure libc++

【解决方案1】：

因为有人特别要求我发表评论，所以我会发表评论，但我不确定我要补充的内容比已经说过的要多。（对不起，我花了 8 天才到这里）

我之前已经为一些容器实现了瘦模板习语，即向量、双端队列和列表。我目前没有为 libc++ 中的任何容器实现它。而且我从来没有为无序的容器实现它。

它确实节省了代码大小。它还增加了复杂性，比引用的 wikibooks 链接所暗示的要复杂得多。人们也可以这样做，而不仅仅是指针。您可以对所有具有相同大小的标量执行此操作。例如为什么int 和unsigned 有不同的实例化？甚至ptrdiff_t 也可以存储在与T* 相同的实例中。毕竟，这只是底部的一个袋子。但是在玩这些技巧时，要让使用一系列迭代器的成员模板正确是非常棘手的。

虽然有缺点（除了实施困难）。它在调试器中的表现几乎没有那么好。至少它使调试器更难显示容器内部。虽然代码大小的节省可能很重要，但我不会将代码大小的节省称为戏剧性的。尤其是与存储照片、动画、音频剪辑、街道地图、多年电子邮件以及来自您最好的朋友和家人的所有附件等所需的内存相比时。即优化代码大小很重要。但是您应该考虑到，在当今的许多应用程序中（甚至在嵌入式设备上），如果您将代码大小减半，您的应用程序大小可能会减少 5%（诚然，统计数据是凭空捏造的）。

我目前的立场是，这种特殊的优化是在链接器中而不是在模板容器中支付和实施的最佳方法。虽然我知道这在链接器中实现起来并不容易，但我听说过成功的实现。

话虽如此，我仍然尝试在模板中进行代码大小优化。例如，在 libc++ 帮助器结构中，例如 __hash_map_node_destructor 模板化的参数尽可能少，因此如果它们的任何代码被概述，则帮助器的一个实例化更有可能服务于多个 unordered_map 的实例化.这种技术对调试器很友好，而且不难做到。当应用于迭代器时，甚至可以对客户端产生一些积极的副作用 (N2980)。

总之，我不会反对代码加倍努力并实现此优化。但我也不会像十年前那样把它归为高优先级，因为链接器技术已经取得了进步，而且代码大小与应用程序大小的比率也趋于显着降低。

【讨论】：

感谢您的详细解答！

【解决方案2】：

当你有一个 void* 参数时，编译时没有类型检查。

您提出的此类映射将是程序中的一个缺陷，因为它们将接受 A*、B* 类型的值元素，甚至更难以想象的花哨类型，这些类型在那张地图。（例如 int*、float*；std::string*、CString*、CWnd*...想象一下您的地图中的混乱...）

您的优化还为时过早。而过早的优化是万恶之源。

【讨论】：

在用户代码中，我同意。过早的优化是邪恶的。但是在库中，作者应该确保他们的代码是高效的。关于类型系统中的漏洞：当然库作者可以通过让unordered_map<Key, T*> 实例化一些隐藏的detail::unordered_map_impl<Key, void*> 来隐藏它。
类型检查由thin template 执行，它简单地委托给非类型安全的公共基类。用户看到的只是模板外观，因此没有关于静态类型的缺陷。（我认为 Scott Meyers 在 Effective or More Effective C++ 中写了一篇关于此的文章，但我手头没有它们可供检查。）
感谢您的链接。虽然我自己做过，但我不知道这个成语的名字是 Thin Template。