【发布时间】:2019-03-25 07:47:48
【问题描述】:
首先我想说: 我检查了互联网上的类似帖子,我看到了类似的堆栈溢出问题,例如:
-
Best data store for billions of rows
How to store 7.3 billion rows of market data (optimized to be read)?
但我想打开我的问题进行仔细检查。
所以...我开始编写我的 [BIG PROJECT],现在我正在编写所有文档等...
在检查“事物”时,我发现在我的 1 个一般应用程序用例中,我需要处理...
[!!!注意!!!] 每天大约有 10 亿个请求!
是的。每天数十亿!
我不能说这是什么要求等等,但我可以说:
1) request里面的数据结构不错 2)我需要大量处理这些数据。我的意思是对这些数据的多对多查询。
今天我对 MS SQL Server 2017 (14.0.100) 中的计算进行了快速测试:
其中 50M 的记录 = 10GB
===> 1B ==> 200GB
所以 200GB 是 每日 SIZE!!!
200Gb * 30 = 6TB - 每月
6TB * 12 ===> 72TB - 1 年大小
而且查询(存储过程)并没有那么快。
因为我只处理文档、技术设计步骤。我想花时间检查处理这些数据的最佳方法。
如果我往前看 1-3-5 年...
(不希望在 2 年后开始更改迁移数据的方式等。)
第二个问题是架构...
这种大数据流与 Google Analytics 非常相似。 但我已发送请求 ID 作为响应。
我一般是.NET DEVELOPER,将在.NET CORE 和微服务架构上开发这个项目
现在我看到 .NET CORE under linux, ngnix 等...
所以我的问题是: 编写此微服务的最佳实践/架构模板是什么。 Google 分析如何每天每天处理这百万和十亿个请求。
我查看了 Google 分析的数据库 - 这是 BigTable。
我找到的最佳替代方案是:HBase
如果 HBase 是我的HERO??
还有 1 个问题是:
什么是最好的选择:
- 使用云数据库解决方案(例如在 AWS EMR/Dynamo/etc..)
- 启动 EC2 实例并在此实例上运行自己的数据库
谢谢你们的帮助,对不起我的英语语法。
【问题讨论】:
-
这是一个问答网站。请注意,Question 是单数,而不是复数。这个问题对于这个网站来说范围太广了。请将其缩小到一个具体问题。如果您有多个问题,请为每个问题创建一个单独的帖子。见How to Ask。
标签: architecture .net-core hbase bigdata bigtable