【发布时间】:2017-03-28 13:39:20
【问题描述】:
对于使用带有HashSet 的自定义比较器,我一定有某种误解。我收集了许多不同类型的数据,我将它们作为 Json 中间存储。为了对其进行操作,我使用 Json.NET,特别是 JObject、JArray 和 Jtoken。
通常我会在收集时向这些内容添加一些内联元数据,并以“tbp_”为前缀。我需要知道以前(或没有)收集过以JObject 表示的特定数据位。为了做到这一点,我有一个自定义的IEqualityComparer,它扩展了 Json.NET 提供的实现。它在使用提供的实现检查值相等之前删除元数据:
public class EntryComparer : JTokenEqualityComparer
{
private static string _excludedPrefix = "tbp_";
public JObject CloneForComparison(JObject obj)
{
var clone = obj.DeepClone() as JObject;
var propertiesToRemove = clone
.Properties()
.Where(p => p.Name.StartsWith(_excludedPrefix));
foreach (var property in propertiesToRemove)
{
property.Remove();
}
return clone;
}
public bool Equals(JObject obj1, JObject obj2)
{
return base.Equals(CloneForComparison(obj1), CloneForComparison(obj2));
}
public int GetHashCode(JObject obj)
{
return base.GetHashCode(CloneForComparison(obj));
}
}
我使用 HashSet 来跟踪我正在操作的数据,因为我只需要知道它是否已经存在。我用EntryComparer 的实例初始化了HashSet。我的测试是:
public class EntryComparerTests
{
EntryComparer comparer;
JObject j1;
JObject j2;
public EntryComparerTests()
{
comparer = new EntryComparer();
j1 = JObject.Parse(@"
{
'tbp_entry_date': '2017-03-25T21:25:53.127993-04:00',
'from_date': '1/6/2017',
'to_date': '2/7/2017',
'use': '324320',
'reading': 'act',
'kvars': '0.00',
'demand': '699.10',
'bill_amt': '$28,750.75'
}");
j2 = JObject.Parse(@"
{
'tbp_entry_date': '2017-03-10T18:59:00.537745-05:00',
'from_date': '1/6/2017',
'to_date': '2/7/2017',
'use': '324320',
'reading': 'act',
'kvars': '0.00',
'demand': '699.10',
'bill_amt': '$28,750.75'
}");
}
[Fact]
public void Test_Equality_Comparer_GetHashCode()
{
Assert.Equal(comparer.GetHashCode(j1), comparer.GetHashCode(j2));
Assert.Equal(true, comparer.Equals(j1, j2));
}
[Fact]
public void Test_Equality_Comparer_Hashset_Contains()
{
var hs = new HashSet<JObject>(comparer);
hs.Add(j1);
Assert.Equal(true, hs.Contains(j2));
}
}
Test_Equality_Comparer_GetHashCode() 通过,但Test_Equality_Comparer_Hashset_Contains() 失败。 j1 和 j2 应该被视为相等并且根据第一次测试的结果,所以我在这里缺少什么?
【问题讨论】:
-
根据我的理解,hascode 对于每个对象来说总是唯一的,对吧?
-
测试仅表明
GetHashCode()有效(意味着它为两个对象返回相同的哈希),但您的Equals不认为对象相等。这就是为什么HashSet.Contains()返回false。它不仅比较哈希码,还检查Equals()哈希码是否相等。 -
@EhsanSajjad 不,这是不可能的,因为可能有比
Int32的值更多的不同对象。如果您有不同的哈希码,哈希码只提供了一种更快地说“这两个不同”的方法。如果两个哈希值相等,您仍然需要检查Equals以确定对象是否真的 相等。所以一个好的散列分布可以节省大量的Equals调用。 -
而且两个对象不相等,时间戳
tbp_entry_date不同。 -
@RenéVogt,看看第一个通过的单元测试。我在 gethashcode 之后检查了我的 equals 实现,以复制哈希集正在做的事情。我猜这个测试名字不好。