大数据 |数据库和架构 [关闭]答案

【问题标题】：BIG DATA | Database and Architecture [closed]大数据 |数据库和架构 [关闭]
【发布时间】：2019-03-25 07:47:48
【问题描述】：

首先我想说：我检查了互联网上的类似帖子，我看到了类似的堆栈溢出问题，例如：

但我想打开我的问题进行仔细检查。

所以...我开始编写我的 [BIG PROJECT]，现在我正在编写所有文档等...

在检查“事物”时，我发现在我的 1 个一般应用程序用例中，我需要处理...

[!!!注意！！！] 每天大约有 10 亿个请求！

是的。每天数十亿！

我不能说这是什么要求等等，但我可以说：

1) request里面的数据结构不错 2）我需要大量处理这些数据。我的意思是对这些数据的多对多查询。

今天我对 MS SQL Server 2017 (14.0.100) 中的计算进行了快速测试：

其中 50M 的记录 = 10GB

===> 1B ==> 200GB

所以 200GB 是每日 SIZE!!!

200Gb * 30 = 6TB - 每月

6TB * 12 ===> 72TB - 1 年大小

而且查询（存储过程）并没有那么快。

因为我只处理文档、技术设计步骤。我想花时间检查处理这些数据的最佳方法。

如果我往前看 1-3-5 年...

（不希望在 2 年后开始更改迁移数据的方式等。）

第二个问题是架构...

这种大数据流与 Google Analytics 非常相似。但我已发送请求 ID 作为响应。

我一般是.NET DEVELOPER，将在.NET CORE 和微服务架构上开发这个项目

现在我看到 .NET CORE under linux, ngnix 等...

所以我的问题是：编写此微服务的最佳实践/架构模板是什么。 Google 分析如何每天每天处理这百万和十亿个请求。

我查看了 Google 分析的数据库 - 这是 BigTable。

我找到的最佳替代方案是：HBase

如果 HBase 是我的HERO？？

还有 1 个问题是：

什么是最好的选择：

谢谢你们的帮助，对不起我的英语语法。

【问题讨论】：

这是一个问答网站。请注意，Question 是单数，而不是复数。这个问题对于这个网站来说范围太广了。请将其缩小到一个具体问题。如果您有多个问题，请为每个问题创建一个单独的帖子。见How to Ask。

【解决方案1】：

大卫这是一个很好的挑战。 TBH，我不会为这种规模的数据使用关系数据库而烦恼，而云是必须的。

如果您是 .NET 开发人员，请坚持使用 Azure 并查看 Cosmos DB，但它会很贵！！！或者，如果您的系统阅读量很大，请查看 Cassandra，但您查询数据的方式受到限制，您将需要使用 Elasticsearch 之类的东西来处理复杂的查询场景。我对 HBase 没有任何经验。

应用程序方面还有其他问题，例如最终一致性和可用性，您可能需要查看 CQRS 或 Actor Pattern http://getakka.net/ 等模式来创建高度可用的响应式应用程序。也不要忘记 docker 和 kubernetes 将成为你的朋友。

【讨论】：