在 AWS p2 实例上使用 Tesla K80 中的两台设备答案

【问题标题】：Utilizing the two devices in a Tesla K80 on AWS p2 instances在 AWS p2 实例上使用 Tesla K80 中的两台设备
【发布时间】：2017-02-23 12:31:39
【问题描述】：

我在 AWS 上使用了一个 p2 实例，它应该有一个 Tesla K80 gpu，里面有两个 GK210 GPU (https://blogs.nvidia.com/blog/2014/11/18/tesla-k80-perf/)。

根据 Nvidia 论坛的以下帖子，我应该能够分别查看和访问这两个设备 (https://devtalk.nvidia.com/default/topic/995255/using-tesla-k80-as-two-tesla-k40/?offset=4)。

但是，当我在 p2 实例上运行 nvidia-smi 时，我只看到一个设备：

[ec2-user@ip-172-31-34-73 caffe]$ nvidia-smi
Wed Feb 22 12:20:51 2017
+------------------------------------------------------+
| NVIDIA-SMI 352.99     Driver Version: 352.99         |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 0000:00:1E.0     Off |                    0 |
| N/A   34C    P8    31W / 149W |     55MiB / 11519MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

如何监控和访问这 2 台设备？

【问题讨论】：

有人会假设您有两个可用设备的假设是不正确的。但这不是 AWS 支持，您的问题并不是真正与编程相关的问题，可能不应该在这里问
当您与 NVIDIA 论坛讨论此问题时，您没有提及 AWS 的使用。在 AWS 上，有问题的 p2 实例只有 K80 GPU 的 1/2。 This AWS blog article 涵盖了详细信息。 p2.xlarge 实例只有一个 GPU（这里指的是设备，不是整体 GPU），它有 2496 个内核和 12GB 内存。这显然是 K80 GPU 的 1/2。您可能需要仔细阅读该博客文章。
你甚至在 NVIDIA 论坛对话框中说“如果 nvidia-smi 给我一个包含四个 K80 的列表，这意味着我有两个”。所以很明显你理解了关系/比率。您的陈述的一个非常直接的扩展是“如果 nvidia-smi 给我一个 K80 的列表，这意味着我有其中的一半”，这将是一个准确的陈述。
感谢@RobertCrovella！我没有在 Nvidia 论坛上写这篇文章 - 这是我为了理解这个问题而阅读的其他人的一篇文章。我阅读了您参考的 AWS 博客文章，它没有明确说明 P2 上的 GPU 是 K80 GPU 的 1/2。你只是从那里的内存和核心规格推断出来的吗？
重新开始阅读博客文章。从标题为“新 P2 实例类型”的部分开始阅读。您可以在该部分的第一句话之后停止阅读。然后将第一句话与图表放在一起，图表显示了 3 种类型，包含 1、8 或 16 个 GPU。 16 个 GPU 实例必须包含 8 个 K80 加速器，因为这是第一句中列出的最大值。然后，8 个 GPU 实例包含 4 个 K80 加速器。只有 1 个 GPU 的实例必须包含 1/2 的 K80 加速器。您还可以从核心和内存规格（对应于 K80 总数的 1/2）中推断出它。

标签： amazon-web-services amazon-ec2 cuda

【解决方案1】：

带有 p2.xlarge 实例的 actual situation 是您有 1/2 的 K80 分配给该 VM，因此您的 nvidia-smi 输出是预期的，您将无法访问 2 GPU 设备来自该虚拟机/实例类型。

【讨论】：