【问题标题】:How to get COUNT DISTINCT in translated SQL with EF Core如何使用 EF Core 在翻译后的 SQL 中获取 COUNT DISTINCT
【发布时间】:2019-06-28 08:45:04
【问题描述】:

我想让 EF 核心将 .Select(x=>x.property).Distinct().Count() 翻译成类似

SELECT COUNT(DISTINCT property)

让我们举个例子。假设我有一个带有 PersonID(long)、VisitStart(datetime2) 和 VisitEnd(datetime2) 的数据库表。 如果我想获取某个特定人访问过的不同天数,那么我可以编写 SQL 之类的

SELECT COUNT(DISTINCT CONVERT(date, VisitStart)) FROM myTable GROUP BY PersonID

但是使用 EF 核心和这个

MyTable
    .GroupBy(x=>x.PersonID)
    .Select(x=> new 
    {
        Count = x.Select(y=>y.VisitStart.Date).Distinct().Count()
    })

给出正确的结果,翻译成这个 SQL

SELECT [x].[PersonID], [x].[VisitStart], [x].[VisitEnd]
FROM [myTable] as [x]
ORDER BY [x].[PersonID]

在任何地方都没有 GROUP BY 和 DISTINCT 或 COUNT,因此分组必须在内存中完成,这在对具有数百万条可能需要从数据库中提取的记录的表上进行操作时并不理想。

所以任何人都知道如何让 EF 核心将 .Select(...).Distinct().Count() 转换为 SELECT COUNT(DISTINCT ...)

【问题讨论】:

  • 哪个 EF Core 版本?这很可能还没有实现。
  • 我的一部分需要知道...如果您知道要运行的 SQL 是什么,为什么不直接运行那个 SQL? a: 为您提供您想要的,b: 避免了表达式树的运行时处理和 SQL 生成的开销; EF/EF-core 有用于运行原始 SQL 的 API,不是吗?还是像 dapper 这样的工具?
  • @PanagiotisKanavos 这是 EF Core 2.1
  • 我有点怀疑您发布的 LINQ 会生成您发布的 SQL - 您的 LINQ 根本没有提到 VisitEnd,但它在生成的 SQL 中?您确定您已经从(假定的)数据库跟踪中选择了正确的 SQL 吗?还是说它只是将整个表加载到内存中?
  • @MarcGravell 你说得对,我可以只使用原始 SQL。我不想使用原始 SQL 的主要原因是它首先破坏了使用 EF Core 的原因,然后我留下了硬编码的 SQL 字符串。我也只是好奇为什么它没有按预期工作。

标签: c# ef-core-2.1


【解决方案1】:

更新(EF Core 5.x):

从版本 5.0 开始,表达式 Select(expr).Distinct().Count() 现在可以被 EF Core 识别并转换为相应的 SQL COUNT(DISTINCT expr)),因此无需修改即可使用原始 LINQ 查询。


原始(EF Core 2.x),由于查询管道重写,该解决方案不适用于 EF Core 3.x:

EF(6 和 Core)历来不支持此标准 SQL 构造。很可能是因为缺乏标准的 LINQ 方法以及将Select(expr).Distinct().Count() 映射到它的技术困难。

好消息是 EF Core 是可扩展的,通过用自定义派生实现替换其许多内部服务来覆盖所需的行为。不容易,需要大量的管道代码,但可行。

所以想法是添加和使用像这样的简单自定义CountDistinct 方法

public static int CountDistinct<T, TKey>(this IQueryable<T> source, Expression<Func<T, TKey>> keySelector)
    => source.Select(keySelector).Distinct().Count();

public static int CountDistinct<T, TKey>(this IEnumerable<T> source, Func<T, TKey> keySelector)
    => source.Select(keySelector).Distinct().Count();

让 EF Core 以某种方式将它们转换为 SQL。事实上,EF Core 提供了一种定义(甚至自定义翻译)数据库标量函数的简单方法,但不幸的是,这不能用于具有单独处理管道的聚合函数。所以我们需要深入挖掘 EF Core 基础架构。

最后提供了 EF Core 2.x 管道的完整代码。不确定是否值得努力,因为 EF Core 3.0 将使用完全重写的查询流程管道。但这很有趣,而且我很确定它可以针对新的(希望更简单的)管道进行更新。

无论如何,您只需将代码复制/粘贴到项目中的新代码文件中,将以下内容添加到上下文OnConfiguring覆盖

optionsBuilder.UseCustomExtensions();

这会将功能插入 EF Core 基础架构,然后像这样查询

var result = db.MyTable
    .GroupBy(x => x.PersonID, x => new { VisitStartDate = x.VisitStart.Date })
    .Select(g => new
    {
        Count = g.CountDistinct(x => x.VisitStartDate)
    }).ToList();

幸运的是会被翻译成想要的

SELECT COUNT(DISTINCT(CONVERT(date, [x].[VisitStart]))) AS [Count]
FROM [MyTable] AS [x]
GROUP BY [x].[PersonID]

注意聚合方法所需的预选表达式。这是当前所有聚合方法的 EF Core 限制/要求,而不仅仅是我们的。

最后,完成魔术的完整代码:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Linq.Expressions;
using System.Reflection;
using Microsoft.EntityFrameworkCore;
using Microsoft.EntityFrameworkCore.Internal;
using Microsoft.EntityFrameworkCore.Metadata;
using Microsoft.EntityFrameworkCore.Query;
using Microsoft.EntityFrameworkCore.Query.Expressions;
using Microsoft.EntityFrameworkCore.Query.ExpressionVisitors;
using Microsoft.EntityFrameworkCore.Query.ExpressionVisitors.Internal;
using Microsoft.EntityFrameworkCore.Query.Internal;
using Remotion.Linq;
using Remotion.Linq.Clauses;
using Remotion.Linq.Clauses.ResultOperators;
using Remotion.Linq.Clauses.StreamedData;
using Remotion.Linq.Parsing.Structure.IntermediateModel;

namespace Microsoft.EntityFrameworkCore
{
    public static partial class CustomExtensions
    {
        public static int CountDistinct<T, TKey>(this IQueryable<T> source, Expression<Func<T, TKey>> keySelector)
            => source.Select(keySelector).Distinct().Count();

        public static int CountDistinct<T, TKey>(this IEnumerable<T> source, Func<T, TKey> keySelector)
            => source.Select(keySelector).Distinct().Count();

        public static DbContextOptionsBuilder UseCustomExtensions(this DbContextOptionsBuilder optionsBuilder)
            => optionsBuilder
                .ReplaceService<INodeTypeProviderFactory, CustomNodeTypeProviderFactory>()
                .ReplaceService<IRelationalResultOperatorHandler, CustomRelationalResultOperatorHandler>();
    }
}

namespace Remotion.Linq.Parsing.Structure.IntermediateModel
{
    public sealed class CountDistinctExpressionNode : ResultOperatorExpressionNodeBase
    {
        public CountDistinctExpressionNode(MethodCallExpressionParseInfo parseInfo, LambdaExpression optionalSelector)
            : base(parseInfo, null, optionalSelector) { }
        public static IEnumerable<MethodInfo> GetSupportedMethods()
            => typeof(CustomExtensions).GetTypeInfo().GetDeclaredMethods("CountDistinct");
        public override Expression Resolve(ParameterExpression inputParameter, Expression expressionToBeResolved, ClauseGenerationContext clauseGenerationContext)
            => throw CreateResolveNotSupportedException();
        protected override ResultOperatorBase CreateResultOperator(ClauseGenerationContext clauseGenerationContext)
            => new CountDistinctResultOperator();
    }
}

namespace Remotion.Linq.Clauses.ResultOperators
{
    public sealed class CountDistinctResultOperator : ValueFromSequenceResultOperatorBase
    {
        public override ResultOperatorBase Clone(CloneContext cloneContext) => new CountDistinctResultOperator();
        public override StreamedValue ExecuteInMemory<T>(StreamedSequence input) => throw new NotSupportedException();
        public override IStreamedDataInfo GetOutputDataInfo(IStreamedDataInfo inputInfo) => new StreamedScalarValueInfo(typeof(int));
        public override string ToString() => "CountDistinct()";
        public override void TransformExpressions(Func<Expression, Expression> transformation) { }
    }
}

namespace Microsoft.EntityFrameworkCore.Query.Internal
{
    public class CustomNodeTypeProviderFactory : DefaultMethodInfoBasedNodeTypeRegistryFactory
    {
        public CustomNodeTypeProviderFactory()
            => RegisterMethods(CountDistinctExpressionNode.GetSupportedMethods(), typeof(CountDistinctExpressionNode));
    }

    public class CustomRelationalResultOperatorHandler : RelationalResultOperatorHandler
    {
        private static readonly ISet<Type> AggregateResultOperators = (ISet<Type>)
            typeof(RequiresMaterializationExpressionVisitor).GetField("_aggregateResultOperators", BindingFlags.NonPublic | BindingFlags.Static)
            .GetValue(null);

        static CustomRelationalResultOperatorHandler()
            => AggregateResultOperators.Add(typeof(CountDistinctResultOperator));

        public CustomRelationalResultOperatorHandler(IModel model, ISqlTranslatingExpressionVisitorFactory sqlTranslatingExpressionVisitorFactory, ISelectExpressionFactory selectExpressionFactory, IResultOperatorHandler resultOperatorHandler)
            : base(model, sqlTranslatingExpressionVisitorFactory, selectExpressionFactory, resultOperatorHandler)
        { }

        public override Expression HandleResultOperator(EntityQueryModelVisitor entityQueryModelVisitor, ResultOperatorBase resultOperator, QueryModel queryModel)
            => resultOperator is CountDistinctResultOperator ?
                HandleCountDistinct(entityQueryModelVisitor, resultOperator, queryModel) :
                base.HandleResultOperator(entityQueryModelVisitor, resultOperator, queryModel);

        private Expression HandleCountDistinct(EntityQueryModelVisitor entityQueryModelVisitor, ResultOperatorBase resultOperator, QueryModel queryModel)
        {
            var queryModelVisitor = (RelationalQueryModelVisitor)entityQueryModelVisitor;
            var selectExpression = queryModelVisitor.TryGetQuery(queryModel.MainFromClause);
            var inputType = queryModel.SelectClause.Selector.Type;
            if (CanEvalOnServer(queryModelVisitor)
                && selectExpression != null
                && selectExpression.Projection.Count == 1)
            {
                PrepareSelectExpressionForAggregate(selectExpression, queryModel);
                var expression = selectExpression.Projection[0];
                var subExpression = new SqlFunctionExpression(
                    "DISTINCT", inputType, new[] { expression.UnwrapAliasExpression() });
                selectExpression.SetProjectionExpression(new SqlFunctionExpression(
                    "COUNT", typeof(int), new[] { subExpression }));
                return new ResultTransformingExpressionVisitor<int>(
                    queryModelVisitor.QueryCompilationContext, false)
                    .Visit(queryModelVisitor.Expression);
            }
            else
            {
                queryModelVisitor.RequiresClientResultOperator = true;
                var typeArgs = new[] { inputType };
                var distinctCall = Expression.Call(
                    typeof(Enumerable), "Distinct", typeArgs,
                    queryModelVisitor.Expression);
                return Expression.Call(
                    typeof(Enumerable), "Count", typeArgs,
                    distinctCall);
            }
        }

        private static bool CanEvalOnServer(RelationalQueryModelVisitor queryModelVisitor) =>
            !queryModelVisitor.RequiresClientEval && !queryModelVisitor.RequiresClientSelectMany &&
            !queryModelVisitor.RequiresClientJoin && !queryModelVisitor.RequiresClientFilter &&
            !queryModelVisitor.RequiresClientOrderBy && !queryModelVisitor.RequiresClientResultOperator &&
            !queryModelVisitor.RequiresStreamingGroupResultOperator;
    }
}

【讨论】:

  • 我尝试将您的代码添加到新文件中,但出现两个错误。找不到PrepareSelectExpressionForAggregateexpression.UnwrapAliasExpression() 方法
  • 如果您使用的是 2.1,请注释掉第一行并将第二行替换为 (expression as AliasExpression)?.Expression ?? expression。使用内部代码的问题之一是您必须在每个版本中更新它。
  • 这个功能绝对值得升级到 EF5。
【解决方案2】:

我想分享一个解决我的不同计数问题的想法。

在按函数分组中进行不同计数的最终另一种方法是嵌套按函数分组(假设您可以通过它聚合数据)。

这是我使用的一个示例,它似乎有效。

为批评性的缩写词道歉,我正在使用它来使我的 JSON 尽可能小。

var myData = _context.ActivityItems
                        .GroupBy(a => new { ndt = EF.Property<DateTime>(a, "dt").Date, ntn = a.tn })
                        .Select(g => new
                        {
                            g.Key.ndt,
                            g.Key.ntn,
                            dpv = g.Sum(o => o.pv),
                            dlv = g.Sum(o => o.lv),
                            cnt = g.Count(),
                        })
                        .GroupBy(a => new { ntn = a.ntn })
                        .Select(g => new
                        {
                            g.Key.ntn,
                            sd = g.Min(o => o.ndt),
                            ld = g.Max(o => o.ndt),
                            pSum = g.Sum(o => o.dpv),
                            pMin = g.Min(o => o.dpv),
                            pMax = g.Max(o => o.dpv),
                            pAvg = g.Average(o => o.dpv),
                            lSum = g.Sum(o => o.dlv),
                            lMin = g.Min(o => o.dlv),
                            lMax = g.Max(o => o.dlv),
                            lAvg = g.Average(o => o.dlv),
                            n10s = g.Sum(o => o.cnt),
                            ndays = g.Count()
                        });

【讨论】:

    猜你喜欢
    • 2018-12-27
    • 2019-12-04
    • 2015-07-24
    • 2021-06-20
    • 2021-03-29
    • 2021-05-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多