【问题标题】:Unexpected results with HashSet.Contains and custom IEqualityComparerHashSet.Contains 和自定义 IEqualityComparer 的意外结果
【发布时间】:2017-03-28 13:39:20
【问题描述】:

对于使用带有HashSet 的自定义比较器,我一定有某种误解。我收集了许多不同类型的数据,我将它们作为 Json 中间存储。为了对其进行操作,我使用 Json.NET,特别是 JObjectJArrayJtoken

通常我会在收集时向这些内容添加一些内联元数据,并以“tbp_”为前缀。我需要知道以前(或没有)收集过以JObject 表示的特定数据位。为了做到这一点,我有一个自定义的IEqualityComparer,它扩展了 Json.NET 提供的实现。它在使用提供的实现检查值相等之前删除元数据:

public class EntryComparer : JTokenEqualityComparer
{
    private static string _excludedPrefix = "tbp_";

    public JObject CloneForComparison(JObject obj)
    {
        var clone = obj.DeepClone() as JObject;
        var propertiesToRemove = clone
            .Properties()
            .Where(p => p.Name.StartsWith(_excludedPrefix));

        foreach (var property in propertiesToRemove)
        {
            property.Remove();
        }

        return clone;
    }

    public bool Equals(JObject obj1, JObject obj2)
    {
        return base.Equals(CloneForComparison(obj1), CloneForComparison(obj2));
    }

    public int GetHashCode(JObject obj)
    {
        return base.GetHashCode(CloneForComparison(obj));
    }
}

我使用 HashSet 来跟踪我正在操作的数据,因为我只需要知道它是否已经存在。我用EntryComparer 的实例初始化了HashSet。我的测试是:

public class EntryComparerTests
{
    EntryComparer comparer;
    JObject j1;
    JObject j2;

    public EntryComparerTests()
    {
        comparer = new EntryComparer();
        j1 = JObject.Parse(@"
        {
          'tbp_entry_date': '2017-03-25T21:25:53.127993-04:00',
          'from_date': '1/6/2017',
          'to_date': '2/7/2017',
          'use': '324320',
          'reading': 'act',
          'kvars': '0.00',
          'demand': '699.10',
          'bill_amt': '$28,750.75'
        }");
        j2 = JObject.Parse(@"
        {
          'tbp_entry_date': '2017-03-10T18:59:00.537745-05:00',
          'from_date': '1/6/2017',
          'to_date': '2/7/2017',
          'use': '324320',
          'reading': 'act',
          'kvars': '0.00',
          'demand': '699.10',
          'bill_amt': '$28,750.75'
        }");
    }

    [Fact]
    public void Test_Equality_Comparer_GetHashCode()
    {  
        Assert.Equal(comparer.GetHashCode(j1), comparer.GetHashCode(j2));
        Assert.Equal(true, comparer.Equals(j1, j2));
    }

    [Fact]
    public void Test_Equality_Comparer_Hashset_Contains()
    {
        var hs = new HashSet<JObject>(comparer);
        hs.Add(j1);

        Assert.Equal(true, hs.Contains(j2));
    }
}

Test_Equality_Comparer_GetHashCode() 通过,但Test_Equality_Comparer_Hashset_Contains() 失败。 j1j2 应该被视为相等并且根据第一次测试的结果,所以我在这里缺少什么?

【问题讨论】:

  • 根据我的理解,hascode 对于每个对象来说总是唯一的,对吧?
  • 测试仅表明 GetHashCode() 有效(意味着它为两个对象返回相同的哈希),但您的 Equals 不认为对象相等。这就是为什么HashSet.Contains() 返回false。它不仅比较哈希码,还检查Equals()哈希码是否相等。
  • @EhsanSajjad 不,这是不可能的,因为可能有比Int32 的值更多的不同对象。如果您有不同的哈希码,哈希码只提供了一种更快地说“这两个不同”的方法。如果两个哈希值相等,您仍然需要检查Equals 以确定对象是否真的 相等。所以一个好的散列分布可以节省大量的Equals调用。
  • 而且两个对象不相等,时间戳tbp_entry_date不同。
  • @RenéVogt,看看第一个通过的单元测试。我在 gethashcode 之后检查了我的 equals 实现,以复制哈希集正在做的事情。我猜这个测试名字不好。

标签: c# .net json.net hashset


【解决方案1】:

更改类的签名:

public class EntryComparer : JTokenEqualityComparer, IEqualityComparer<JObject>

否则使用的GetHashCode()Equals() 是基类中的那些(具有不同的“签名”...基类实现IEqualityComparer&lt;JToken&gt;,因此您的方法不是t 由HashSet&lt;&gt; 调用)。

然后是属性移除的一个小bug:

var propertiesToRemove = clone
    .Properties()
    .Where(p => p.Name.StartsWith(_excludedPrefix))
    .ToArray();

最好“隐藏”JTokenEqualityComparer 并将其设为私有字段,例如:

public class EntryComparer : IEqualityComparer<JObject>
{
    private static readonly JTokenEqualityComparer _comparer = new JTokenEqualityComparer();
    private static readonly string _excludedPrefix = "tbp_";

    public static JObject CloneForComparison(JObject obj)
    {
        var clone = obj.DeepClone() as JObject;
        var propertiesToRemove = clone
            .Properties()
            .Where(p => p.Name.StartsWith(_excludedPrefix))
            .ToArray();

        foreach (var property in propertiesToRemove)
        {
            property.Remove();
        }

        return clone;
    }

    public bool Equals(JObject obj1, JObject obj2)
    {
        return _comparer.Equals(CloneForComparison(obj1), CloneForComparison(obj2));
    }

    public int GetHashCode(JObject obj)
    {
        return _comparer.GetHashCode(CloneForComparison(obj));
    }
}

【讨论】:

  • 很好地调用ToArray(). 我之前选择了字符串属性名称并将它们投影到ToList(),我认为这是多余的,因为我可以自己使用属性,并且无需测试就对其进行了更改。多哈。您更改签名的建议奏效了,我有一些学习要做!感谢您的帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-03-20
  • 2017-10-10
  • 2018-09-03
  • 2014-04-06
  • 1970-01-01
相关资源
最近更新 更多