【问题标题】:BIG DATA | Database and Architecture [closed]大数据 |数据库和架构 [关闭]
【发布时间】:2019-03-25 07:47:48
【问题描述】:

首先我想说: 我检查了互联网上的类似帖子,我看到了类似的堆栈溢出问题,例如:

但我想打开我的问题进行仔细检查。

所以...我开始编写我的 [BIG PROJECT],现在我正在编写所有文档等...

在检查“事物”时,我发现在我的 1 个一般应用程序用例中,我需要处理...

[!!!注意!!!] 每天大约有 10 亿个请求!

是的。每天数十亿!

我不能说这是什么要求等等,但我可以说:

1) request里面的数据结构不错 2)我需要大量处理这些数据。我的意思是对这些数据的多对多查询。

今天我对 MS SQL Server 2017 (14.0.100) 中的计算进行了快速测试

其中 50M 的记录 = 10GB

===> 1B ==> 200GB

所以 200GB每日 SIZE!!!

200Gb * 30 = 6TB - 每月

6TB * 12 ===> 72TB - 1 年大小

而且查询(存储过程)并没有那么快。

因为我只处理文档、技术设计步骤。我想花时间检查处理这些数据的最佳方法。

如果我往前看 1-3-5 年...

(不希望在 2 年后开始更改迁移数据的方式等。)


第二个问题是架构...

这种大数据流与 Google Analytics 非常相似。 但我已发送请求 ID 作为响应。

我一般是.NET DEVELOPER,将在.NET CORE 和微服务架构上开发这个项目

现在我看到 .NET CORE under linux, ngnix 等...

所以我的问题是: 编写此微服务的最佳实践/架构模板是什么。 Google 分析如何每天每天处理这百万十亿个请求。

我查看了 Google 分析的数据库 - 这是 BigTable

我找到的最佳替代方案是:HBase

如果 HBase 是我的HERO??


还有 1 个问题是:

什么是最好的选择:

  • 使用云数据库解决方案(例如在 AWS EMR/Dynamo/etc..)
  • 启动 EC2 实例并在此实例上运行自己的数据库

谢谢你们的帮助,对不起我的英语语法。

【问题讨论】:

  • 这是一个问答网站。请注意,Question 是单数,而不是复数。这个问题对于这个网站来说范围太广了。请将其缩小到一个具体问题。如果您有多个问题,请为每个问题创建一个单独的帖子。见How to Ask

标签: architecture .net-core hbase bigdata bigtable


【解决方案1】:

大卫这是一个很好的挑战。 TBH,我不会为这种规模的数据使用关系数据库而烦恼,而云是必须的。

如果您是 .NET 开发人员,请坚持使用 Azure 并查看 Cosmos DB,但它会很贵!!!或者,如果您的系统阅读量很大,请查看 Cassandra,但您查询数据的方式受到限制,您将需要使用 Elasticsearch 之类的东西来处理复杂的查询场景。我对 HBase 没有任何经验。

应用程序方面还有其他问题,例如最终一致性和可用性,您可能需要查看 CQRS 或 Actor Pattern http://getakka.net/ 等模式来创建高度可用的响应式应用程序。也不要忘记 docker 和 kubernetes 将成为你的朋友。

【讨论】:

    猜你喜欢
    • 2015-12-28
    • 2012-04-14
    • 2020-05-24
    • 2010-10-25
    • 2014-08-24
    • 2012-12-11
    • 2012-02-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多