【问题标题】:How fast is perl hash select?perl 哈希选择有多快?
【发布时间】:2014-11-27 22:33:35
【问题描述】:

我使用 Perl 哈希来存储 ip -> 主机名对。我有数百万。

我在哈希 %HOSTNAME{$ip} 中缓存 gethostbyip 系统调用。

内存不是问题。时间是。

在这种情况下,perl 哈希搜索的速度有多快?

如果我改用 MysqlDB 或 BerkleyDB 会更快吗?

【问题讨论】:

  • 做一个基准测试。
  • Mysql 和 BerkleyDB 正在使用与普通哈希不同的外部存储,因此答案似乎很明显。
  • 你会想要$HOSTNAME{$ip},而不是%HOSTNAME{$ip}
  • @salva,更准确地说,哈希查找速度不受哈希大小(O(1))的影响。
  • IPv4 地址只是 32 位数字。如果您只处理 IPv4,并且内存确实不是问题,那么最快的解决方案可能是包含 40 亿个元素的数组。

标签: perl hash berkeley-db


【解决方案1】:

假设您有足够的 RAM 来保存所有数据,内存中的查找几乎总是比从外部源(磁盘、数据库等)检索数据更快,因为 RAM速度很快,而 I/O 操作很慢。

如果您不能将所有内容都保存在 RAM 中,那么它的可预测性就会降低,您可能需要进行基准测试以确定对于您的特定程序和硬件组合而言哪个更快。

【讨论】:

  • perl 哈希是使用索引来查找给定的键,还是扫描所有哈希内存来找到它,或者 perl 保持键排序并进行二进制搜索?
  • 以上都不是。散列分配多个“桶”并使用散列算法在桶之间分配项目。它不需要索引、扫描或搜索,因为它知道一个项目属于哪个存储桶并且可以直接去那里 - 哈希查找是 O(1)。当然,哈希冲突是可能的,在这种情况下,多个项目将作为链表存储在一个桶中(确实需要线性扫描),但是一个好的实现(例如 Perl 的)会透明地增加桶的数量这会成为问题。
猜你喜欢
  • 2012-09-06
  • 1970-01-01
  • 1970-01-01
  • 2014-09-08
  • 1970-01-01
  • 2016-07-22
  • 2020-07-19
  • 2015-01-17
相关资源
最近更新 更多