【问题标题】:Jooq/SQL find average value for unique values in another columnJooq/SQL 查找另一列中唯一值的平均值
【发布时间】:2019-08-05 14:42:03
【问题描述】:

我有一个查询要从表的组合中返回各种数字。我正在使用 jooq 运行此查询。

final SiteSalesFigures siteSalesFigures =
dsl.select(
      countDistinct(LINE.TRANSACTION_ID).as("transactionCount"),
      sum(LINE.PROFIT).as("totalProfit"),
      sum(LINE.TOTAL).as("totalSalesAmount"),
      sum(LINE.QUANTITY).as("totalItemsSold"),
      sum(LINE.PROFIT).divide(sum(LINE.TOTAL)).multiply(100).as("profitMarginPercentage"),
      avg(TRANSACTIONS.NO_OF_ITEMS).as("averageItemsPerTransaction"),
      sum(LINE.TOTAL).divide(countDistinct(LINE.TRANSACTION_ID)).as("averageSalesTotalPerTransaction"),
      sum(LINE.PROFIT).divide(countDistinct(LINE.TRANSACTION_ID)).as("averageProfitTotalPerTransaction"))
    .from(TRANSACTIONS)
    .join(LINE).on(TRANSACTIONS.TRANSACTION_ID.equal(LINE.TRANSACTION_ID))
    .leftJoin(ITEM).on(LINE.ITEM_ID.equal(ITEM.ITEM_CODE))
    .where(TRANSACTIONS.SITE_ID.equal(siteId))
    .and(TRANSACTIONS.NO_OF_LINES.greaterThan(0))
    .and(TRANSACTIONS.START_TIME
      .between(new Timestamp(reportStartDate.toInstant().toEpochMilli()))
      .and(new Timestamp(reportEndDate.toInstant().toEpochMilli())))
    .and(TRANSACTIONS.TRANSACTION_TYPE_ID.notEqual(cancelledSaleID))
    .fetchOneInto(SiteSalesFigures.class);

averageItemsPerTransaction 被证明是问题所在。我完全理解为什么它不起作用,但我不确定如何使它起作用。不幸的是,由于使用 Line 表的排除,连接是必要的。

如果一个事务有 3 行,那么事务详细信息(包括 no_of_items)会被复制 3 次,这会导致值不正确。

我知道正确的值,因为我只对事务表运行了 average(no_of_items) 查询。

这只是两个事务的表格(隐藏此示例不需要的列):

          **transaction_id**       **no_of_lines    no_of_items**
8abf1720-51f6-a1bf-4714-004b644cb99f --- 2         --- 2
8abf1720-51f6-a1bf-4714-004b644cb99f --- 2         --- 2
d239feab-38ea-7c8a-4814-7d5a38f74949 --- 3         --- 4
d239feab-38ea-7c8a-4814-7d5a38f74949 --- 3         --- 4
d239feab-38ea-7c8a-4814-7d5a38f74949 --- 3         --- 4

您会注意到行数并不总是等于项目数(例如,一行可以让一个项目扫描两次)

有人有解决办法吗?

【问题讨论】:

  • 您使用的是哪个 MySQL 版本? 8个还是小于8个?
  • @LukasEder 我使用的是 MySQL 8.0.13 版!

标签: java mysql sql jooq


【解决方案1】:

使用 2 个查询的解决方案

一个明显的解决方案是运行两个查询来获得这些结果。第一个查询将是您已经拥有的查询(但没有平均值),第二个查询只会计算平均值:

final SiteSalesFigures siteSalesFigures =
dsl.select(
      avg(TRANSACTIONS.NO_OF_ITEMS).as("averageSalesTotalPerTransaction"),
      avg(TRANSACTIONS.PRICE).as("averageSalesTotalPerTransaction"),
      avg(TRANSACTIONS.PROFIT).as("averageProfitTotalPerTransaction"))
    .from(TRANSACTIONS)
    .where(TRANSACTIONS.SITE_ID.equal(siteId))
    .and(TRANSACTIONS.NO_OF_LINES.greaterThan(0))
    .and(TRANSACTIONS.START_TIME
      .between(new Timestamp(reportStartDate.toInstant().toEpochMilli()))
      .and(new Timestamp(reportEndDate.toInstant().toEpochMilli())))
    .and(TRANSACTIONS.TRANSACTION_TYPE_ID.notEqual(cancelledSaleID))
    .fetchOneInto(SiteSalesFigures.class);

这可能比一次性完成要慢得多,具体取决于您的TRANSACTIONS 表的大小。

使用weighted average 的解决方案

因为您的连接会产生重复的TRANSACTIONS 行,所以您必须计算加权平均值,而不是普通平均值。鉴于您的示例,如果您的 TRANSACTIONS 行重复 3 次,那么您必须将该特定事务的贡献除以 3。这通常会非常复杂,但鉴于您已经通过预先计算 @ 987654327@ 每笔交易,你很幸运。如果您没有此列,则必须在派生表中预先计算它。

在 SQL/jOOQ 中:

final SiteSalesFigures siteSalesFigures =
dsl.select(
      ...
      count() 
        .divide(countDistinct(TRANSACTIONS.TRANSACTION_ID)).as("averageSalesTotalPerTransaction"),
      sum(TRANSACTIONS.PRICE.divide(TRANSACTIONS.NO_OF_ITEMS))
        .divide(countDistinct(TRANSACTIONS.TRANSACTION_ID)).as("averageSalesTotalPerTransaction"),
      sum(TRANSACTIONS.PROFIT.divide(TRANSACTIONS.NO_OF_ITEMS))
        .divide(countDistinct(TRANSACTIONS.TRANSACTION_ID)).as("averageProfitTotalPerTransaction"))
    .from(TRANSACTIONS)
    .join(...)
    ...
    .fetchOneInto(SiteSalesFigures.class);

根据您的数据类型,您可能需要转换为 DOUBLENUMBER

I've blogged about calculating weighted averages in SQL more in detail here.

【讨论】:

  • 不幸的是 Lukas,这两种解决方案都行不通。第一个解决方案将包括我试图排除的行(排除基于行部门,在 LINE 表中找到)。使用我现在添加到原始问题中的示例表,第二个解决方案也不起作用
  • @androidUser1993:我想说这些解决方案非常适合您提出的问题。总体思路仍将适用于您计划做的任何问题。一旦你更新了你的问题,我很高兴更新我的答案。
  • @androidUser1993:嗯,这并没有真正改变问题的语义,只是需要调整表达式。在我的查询中使用NUMBER_OF_LINES 而不是NUMBER_OF_ITEMS,我猜?鉴于一个LINE 只能有一个ITEM_ID,这似乎是一对一的关系。
  • 我已经进一步更新了我如何解决averageSalesTotalPerTransaction和averageProfitTotalPerTransaction的问题,我现在唯一遇到的问题是averageItemsPerTransaction(这在原始问题中的名称被错误复制)。对于我包含的示例表,我希望这个值为 3
  • 再次,我将发布一个简单的解决方案......原来答案一直摆在我面前。感谢您的帮助卢卡斯
【解决方案2】:

解决方案一直摆在我面前,我可以使用正在工作的值来获得我需要的值:

final SiteSalesFigures siteSalesFigures =
dsl.select(
      countDistinct(LINE.TRANSACTION_ID).as("transactionCount"),
      sum(LINE.PROFIT).as("totalProfit"),
      sum(LINE.TOTAL).as("totalSalesAmount"),
      sum(LINE.QUANTITY).as("totalItemsSold"),
      sum(LINE.PROFIT).divide(sum(LINE.TOTAL)).multiply(100).as("profitMarginPercentage"),
      sum(LINE.QUANTITY).divide(countDistinct(LINE.TRANSACTION_ID)).as("averageItemsPerTransaction"),
      sum(LINE.TOTAL).divide(countDistinct(LINE.TRANSACTION_ID)).as("averageSalesTotalPerTransaction"),
      sum(LINE.PROFIT).divide(countDistinct(LINE.TRANSACTION_ID)).as("averageProfitTotalPerTransaction"))
    .from(TRANSACTIONS)
    .join(LINE).on(TRANSACTIONS.TRANSACTION_ID.equal(LINE.TRANSACTION_ID))
    .leftJoin(ITEM).on(LINE.ITEM_ID.equal(ITEM.ITEM_CODE))
    .where(TRANSACTIONS.SITE_ID.equal(siteId))
    .and(TRANSACTIONS.NO_OF_LINES.greaterThan(0))
    .and(TRANSACTIONS.START_TIME
      .between(new Timestamp(reportStartDate.toInstant().toEpochMilli()))
      .and(new Timestamp(reportEndDate.toInstant().toEpochMilli())))
    .and(TRANSACTIONS.TRANSACTION_TYPE_ID.notEqual(cancelledSaleID))
    .fetchOneInto(SiteSalesFigures.class);

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-07-12
    • 2021-10-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-11-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多