【发布时间】:2016-09-27 05:56:57
【问题描述】:
我正在使用 TestDFSIO 对 hadoop I/O 性能进行基准测试。 我正在使用的测试平台是一个包含 3 个数据节点和一个名称节点的小型虚拟集群。 每个 vm 会有 6-8 GB RAM 和 100-250 GB HDD。
我想知道两件事:
相对于我的设置,每个文件的文件数 (nrFIles) 和文件大小 (fileSize) 参数的值应该是多少,以便我们可以将我的小集群的结果与标准大小的集群相关联比如拥有 8-12 x 2-TB 的硬盘和 64 GB 的 RAM 以及更高的处理速度。这样做是否正确。
一般来说,对 hadoop 进行基准测试的最佳实践是什么?像: 推荐的集群规范是什么(datanodes、namenodes 的规格)、推荐的测试数据大小、测试台应该具有哪些配置/规格才能获得符合实际 hadoop 应用程序的结果
简单地说,我想了解正确的 hadoop 测试平台设置和正确的测试方法,以便我的结果与生产集群相关。
参考经过验证的工作会很有帮助。
另一个问题是 假设我有 -nrFiles 15 -fileSize 1GB 我发现地图任务的数量将等于 nrFiles 提到的数量 但是它们是如何分布在 3 个数据节点之间的呢? 15个地图任务我不清楚。是不是每个文件有 15 个文件会有一个映射器在处理它?
我没有找到任何关于 testDFSIO 工作原理的文档或说明。
【问题讨论】:
-
欢迎来到 SO,请在提问时更具体一点:您尝试过什么,您期望什么等。请参阅how to ask
-
我希望我的问题现在更清楚了。
标签: apache hadoop benchmarking bigdata