【问题标题】:Utilizing the two devices in a Tesla K80 on AWS p2 instances在 AWS p2 实例上使用 Tesla K80 中的两台设备
【发布时间】:2017-02-23 12:31:39
【问题描述】:

我在 AWS 上使用了一个 p2 实例,它应该有一个 Tesla K80 gpu,里面有两个 GK210 GPU (https://blogs.nvidia.com/blog/2014/11/18/tesla-k80-perf/)。

根据 Nvidia 论坛的以下帖子,我应该能够分别查看和访问这两个设备 (https://devtalk.nvidia.com/default/topic/995255/using-tesla-k80-as-two-tesla-k40/?offset=4)。

但是,当我在 p2 实例上运行 nvidia-smi 时,我只看到一个设备:

[ec2-user@ip-172-31-34-73 caffe]$ nvidia-smi
Wed Feb 22 12:20:51 2017
+------------------------------------------------------+
| NVIDIA-SMI 352.99     Driver Version: 352.99         |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 0000:00:1E.0     Off |                    0 |
| N/A   34C    P8    31W / 149W |     55MiB / 11519MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

如何监控和访问这 2 台设备?

【问题讨论】:

  • 有人会假设您有两个可用设备的假设是不正确的。但这不是 AWS 支持,您的问题并不是真正与编程相关的问题,可能不应该在这里问
  • 当您与 NVIDIA 论坛讨论此问题时,您没有提及 AWS 的使用。在 AWS 上,有问题的 p2 实例只有 K80 GPU 的 1/2。 This AWS blog article 涵盖了详细信息。 p2.xlarge 实例只有一个 GPU(这里指的是设备,不是整体 GPU),它有 2496 个内核和 12GB 内存。这显然是 K80 GPU 的 1/2。您可能需要仔细阅读该博客文章。
  • 你甚至在 NVIDIA 论坛对话框中说“如果 nvidia-smi 给我一个包含四个 K80 的列表,这意味着我有两个”。所以很明显你理解了关系/比率。您的陈述的一个非常直接的扩展是“如果 nvidia-smi 给我一个 K80 的列表,这意味着我有其中的一半”,这将是一个准确的陈述。
  • 感谢@RobertCrovella!我没有在 Nvidia 论坛上写这篇文章 - 这是我为了理解这个问题而阅读的其他人的一篇文章。我阅读了您参考的 AWS 博客文章,它没有明确说明 P2 上的 GPU 是 K80 GPU 的 1/2。你只是从那里的内存和核心规格推断出来的吗?
  • 重新开始阅读博客文章。从标题为“新 P2 实例类型”的部分开始阅读。您可以在该部分的第一句话之后停止阅读。然后将第一句话与图表放在一起,图表显示了 3 种类型,包含 1、8 或 16 个 GPU。 16 个 GPU 实例必须包含 8 个 K80 加速器,因为这是第一句中列出的最大值。然后,8 个 GPU 实例包含 4 个 K80 加速器。只有 1 个 GPU 的实例必须包含 1/2 的 K80 加速器。您还可以从核心和内存规格(对应于 K80 总数的 1/2)中推断出它。

标签: amazon-web-services amazon-ec2 cuda


【解决方案1】:

带有 p2.xlarge 实例的 actual situation 是您有 1/2 的 K80 分配给该 VM,因此您的 nvidia-smi 输出是预期的,您将无法访问 2 GPU 设备来自该虚拟机/实例类型。

【讨论】:

    猜你喜欢
    • 2019-08-11
    • 2016-11-08
    • 1970-01-01
    • 2016-04-02
    • 1970-01-01
    • 2018-12-23
    • 2016-04-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多