快速大数据透视答案

【问题标题】：Quickly Large Data Pivoting快速大数据透视
【发布时间】：2017-09-22 15:46:45
【问题描述】：

我们正在开发一种产品，该产品可用于开发预测模型以及对数据进行切片和切块以提供 BI。

我们有两种数据访问要求。

对于预测建模，我们需要每天读取数据并逐行进行。在这种情况下，普通的 SQL Server 数据库就足够了，我们没有遇到任何问题。

如果对大数据进行切片和切块，例如 1GB 的数据，我们可以说是 300 M 行。我们希望以最短的响应时间轻松地转换这些数据。

当前的 SQL 数据库在这方面存在响应时间问题。

我们希望我们的产品能够在任何具有 2GB RAM 和 Core 2 Duo 处理器的普通客户端计算机上运行。

我想知道我应该如何存储这些数据，以及如何为每个维度创建一个旋转体验。

理想情况下，我们将拥有大型公司按产品按地区按销售人员的每日销售额的数据。然后我们想根据任何维度对它进行切片和切块，并且能够执行聚合、唯一值、最大值、最小值、平均值和其他一些统计功能。

【问题讨论】：

你试过什么？你的数据结构是什么？什么版本的 SQL Server？数据多久增长一次还是静态的？是否有很多插入/更新活动？每个数据库有多少用户？
我们使用的是 SQL Server 2008。首先，这不是一个事务应用程序。我们允许用户导入任何此类数据，然后根据他们的要求进行切片和切块。您可以将其与 ClickView 和 SpotFire 的功能进行比较。所以我们没有任何插入/更新活动定期他们导入数据然后进行分析。每个数据库的用户约为 50 个。

【解决方案1】：

我会在这些数据之上构建一个内存中的多维数据集。举个例子，icCube 在单核 i5 上对超过 50M 行的 3/4 测量具有亚秒级响应时间 - 没有任何缓存或预聚合（即，此响应时间在所有维度上都是恒定的） .

直接与我们联系以获取有关如何将其集成到您的产品中的更多详细信息。

【讨论】：

【解决方案2】：

您也可以使用PowerPivot 来执行此操作。这是 Excel 2010 的免费插件，可以处理、切片+切块等大型数据集。

如果您想围绕它编写代码，可以使用SSAS database connector 连接到 PowerPivot 数据库 (effectively an SSAS cube)

希望有一些用处..

【讨论】：