【问题标题】:Generic Hash function for all STL-containers所有 STL 容器的通用哈希函数
【发布时间】:2011-10-17 11:35:07
【问题描述】:

我在我的实现中使用std::unordered_map<key,value>。我将使用任何 STL 容器作为密钥。我想知道是否可以为正在使用的任何容器创建通用哈希函数。

This SO 中的问题为所有 STL 容器提供通用打印功能。虽然您可以拥有它,但为什么不能拥有像定义所有内容的 Hash 函数之类的东西呢?是的,一个大问题是它需要快速高效。

我正在考虑做一个简单的散列函数,将键的值转换为size_t,并做一个像this 这样的简单函数。

这个可以吗?

PS:请不要使用boost 库。谢谢。

【问题讨论】:

  • 用作键的容器的内容是什么?
  • 什么时候你会认为两个键相等?如果他们有不同的元素顺序怎么办?如果元素不可比较怎么办?您将如何有效地比较根据定义最多只能比较不那么可比的元素?
  • 这是个好问题。那应该是我的下一个问题。感谢您指出。现在我假设我所有的元素都是有序的。如果除了键类型std::set<int> 之外没有订购它们,这是一个问题。既然它是一个整数,我们可以创建一个模仿std::set 的“智能”哈希函数吗?例如, 应该产生与 相同的哈希值。

标签: c++ stl hash map c++11


【解决方案1】:

我们可以通过模仿 Boost 并结合哈希得到答案。

警告:组合散列,即从事物的许多散列中计算许多事物的散列,通常不是一个好主意,因为所得散列函数在统计意义上不是“好”的.许多事物的适当哈希应该从所有成分的整个原始数据构建,而不是从中间哈希构建。但目前还没有一个好的标准方法来做到这一点。

无论如何:

首先,我们需要hash_combine 函数。由于我无法理解的原因,它没有包含在标准库中,但它是其他一切的核心:

template <class T>
inline void hash_combine(std::size_t & seed, const T & v)
{
  std::hash<T> hasher;
  seed ^= hasher(v) + 0x9e3779b9 + (seed << 6) + (seed >> 2);
}

使用它,我们可以散列由可散列元素组成的所有内容,特别是对和元组(读者练习)。

但是,我们也可以通过散列容器的元素来使用它来散列容器。这正是 Boost 的“范围哈希”所做的,但使用 combine 函数可以直接实现。

编写完范围哈希器后,只需专门化 std::hash 即可:

namespace std
{
  template <typename T, class Comp, class Alloc>
  struct hash<std::set<T, Comp, Alloc>>
  {
    inline std::size_t operator()(const std::set<T, Comp, Alloc> & s) const
    {
      return my_range_hash(s.begin(), s.end());
    }
  };

  /* ... ditto for other containers */
}

如果你想模仿漂亮的打印机,你甚至可以做一些更极端的事情,为所有容器专门化 std::hash,但我可能会更加小心,并为容器创建一个明确的哈希对象:

template <typename C> struct ContainerHasher
{
  typedef typename C::value_type value_type;
  inline size_t operator()(const C & c) const
  {
    size_t seed = 0;
    for (typename C::const_iterator it = c.begin(), end = c.end(); it != end; ++it)
    {
      hash_combine<value_type>(seed, *it);
    }
    return seed;
  }
};

用法:

std::unordered_map<std::set<int>, std::string, ContainerHasher<std::set<int>>> x;

【讨论】:

  • 这太棒了。我对你的第二段代码有疑问。你使用了return my_range_hash(s.begin(), s.end());。你在哪里定义了my_range_hash 函数?对不起,如果这是一个愚蠢的问题?
  • 关于第二段代码的另一件事是,您不能为 all 类型的命名空间 std 添加特化,您必须在此处有一些用户定义的类型。代码不错,就是太笼统了。
  • @Sunil:我留下了my_range_hash 供您实施——它看起来就像我的ContainerHasher 中的operator()
  • @Bo:什么是“太笼统”?你的意思是不可能定义一个部分特化来捕获与is_container 类型特征匹配的所有 容器,还是你的意思是std::set&lt;T,Comp,Alloc&gt; 太笼统了?我现在真的很担心pretty printer 非法向std 添加重载,也许这也应该用 ADL 来完成......
  • @Kerrek - 您只能将用户定义类型的特化添加到命名空间 std。如果你有 typename T 它不仅匹配你的类型,而且匹配命名空间 std 中的所有类型以及所有 my 类型,我可能不想要。
猜你喜欢
  • 2011-08-04
  • 1970-01-01
  • 2012-09-17
  • 1970-01-01
  • 1970-01-01
  • 2013-05-08
  • 2011-02-21
  • 2013-09-12
  • 2021-01-19
相关资源
最近更新 更多