GLM 数学库是否与 Apple 的金属着色语言兼容？答案

【问题标题】：Is the GLM math library compatible with Apple's metal shading language?GLM 数学库是否与 Apple 的金属着色语言兼容？
【发布时间】：2019-07-22 15:29:16
【问题描述】：

我即将将使用 C++ 编写的 OpenGL 的 iOS 应用程序移植到 Apple 的 Metal 中。目标是彻底摆脱 OpenGL 并用 Metal 取代它。

OpenGL 代码是分层的，我试图只替换渲染器，即实际调用 OpenGL 函数的类。但是，整个代码库都使用 GLM 数学库来表示向量和矩阵。

例如，有一个提供视图和投影矩阵的相机类。它们都是glm::mat4 类型，并简单地传递给GLSL 顶点着色器，它们与GLSL 给出的mat4 数据类型兼容。我想利用该相机类将这些矩阵发送到金属顶点着色器。现在，我不确定glm::mat4 是否与Metal 的float4x4 兼容。

我没有一个可以测试的工作示例，因为我刚开始使用 Metal 并且在网上找不到任何有用的东西。

所以我的问题如下：

glm::mat4 和 glm::vec4 等 GLM 类型是否与 Metal 的 float4x4 / float4 兼容？
如果问题 1. 的答案是肯定的，那么如果我在金属着色器中直接使用 GLM 类型，我是否有任何劣势？

关于问题 2. 的背景是我遇到了 Apple 的 SIMD 库，它提供了另一组数据类型，在这种情况下我将无法使用，对吧？

该应用仅适用于 iOS，我根本不关心在 macOS 上运行 Metal。

代码 sn-ps（最好是 Objective-C（是的，不是开玩笑））会非常受欢迎。

【问题讨论】：

GLM 在 CPU 中执行，不是 OpenGL，不是 Metal，不是 D3D，不是任何 GPU API。唯一需要关心 GLM 矩阵的是将它们传递给 GPU 时，注意它们是否必须转置。
除了 Ripi2 的评论，我注意到 OpenGL 和 Metal 具有不同形状的剪辑空间，因此您需要确保您创建的任何投影矩阵都考虑到这一点。
@Ripi2 那么什么矩阵数学库会在 GPU 上运行？我认为使用这些东西可以达到的最好效果就是使用 simd。如果数学库确实使用了 GPU，那不会影响您自己使用 GPU 吗？
@trojanfoe OpenGL、Metal、Vulkan...必须在相同的 [新] 硬件上运行。因此，对于所有 API，顶点缓冲区或着色器等概念都是相似的，可能名称不同。着色器是在 GPU 中运行的程序。对于 OGL，他们使用 GLSL 语言。他们可以接收用于许多事情的矩阵。请参阅任何 OpenGL 教程。通过在内部使用着色器和其他功能，有一些库（例如 OpenCL）在 GPU 中部分执行。
@Ripi2 实际上，看您的评论，您不暗示您应该寻找适用于 GPU 的数学库。我弄错了棍子的一端。

标签： ios objective-c opengl metal glm-math

【解决方案1】：

总的来说，答案是是的，GLM 非常适合使用 Apple 的 Metal 的应用程序。但是，有几件事需要考虑。其中一些已经在 cmets 中有所暗示。

首先，Metal Programming Guide 提到了这一点

Metal 将其归一化设备坐标 (NDC) 系统定义为 2x2x1 立方体，其中心位于 (0, 0, 0.5)

这意味着 Metal NDC 坐标与 OpenGL NDC 坐标不同，因为 OpenGL 将 NDC 坐标系定义为一个 2x2x2 立方体，其中心位于 (0, 0, 0)，即有效的 OpenGL NDC 坐标必须在其范围内

// Valid OpenGL NDC coordinates
-1 <= x <= 1
-1 <= y <= 1
-1 <= z <= 1

因为 GLM 最初是为 OpenGL 量身定制的，所以它的 glm::ortho 和 glm::perspective 函数会创建将坐标转换为 OpenGL NDC 坐标的投影矩阵。因此，有必要将这些坐标调整为金属。 this 博客文章中概述了如何实现这一点。

但是，有一种更优雅的方法可以修复这些坐标。有趣的是，Vulkan 使用与 Metal 相同的 NDC 坐标系，而 GLM 已经适应了与 Vulkan 一起使用（发现 here 的提示）。

通过定义 C/C++ 预处理器宏GLM_FORCE_DEPTH_ZERO_TO_ONE，上述 GLM 投影矩阵函数将转换坐标以使用 Metal 的 / Vulkan 的 NDC 坐标系。 #define 将因此解决不同 NDC 坐标系的问题。

接下来，在 Metal 着色器和客户端 (CPU) 代码之间交换数据时，必须同时考虑 GLM 和 Metal 数据类型的大小和对齐方式。 Apple 的 Metal Shading Language Specification 列出了一些其数据类型的大小和对齐方式。

对于其中未列出的数据类型，大小和对齐方式可以通过使用 C/C++ 的 sizeof 和 alignof 运算符来确定。有趣的是，Metal 着色器支持这两个运算符。以下是 GLM 和 Metal 的几个示例：

// Size and alignment of some GLM example data types
glm::vec2 : size:  8, alignment: 4
glm::vec3 : size: 12, alignment: 4
glm::vec4 : size: 16, alignment: 4
glm::mat4 : size: 64, alignment: 4

// Size and alignment of some of Metal example data types
float2        : size:  8, alignment:  8
float3        : size: 16, alignment: 16
float4        : size: 16, alignment: 16
float4x4      : size: 64, alignment: 16
packed_float2 : size:  8, alignment:  4
packed_float3 : size: 12, alignment:  4
packed_float4 : size: 16, alignment:  4

从上表中可以看出，GLM 矢量数据类型在大小和对齐方面都与 Metal 的打包矢量数据类型非常匹配。但请注意，4x4 矩阵数据类型在对齐方面不匹配。

根据this对另一个SO问题的回答，对齐的含义如下：

对齐是对可以存储值的第一个字节的内存位置的限制。（需要提高处理器的性能并允许使用某些指令，这些指令仅适用于具有特定对齐方式的数据，例如 SSE 需要对齐到 16 字节，而 AVX 需要对齐到 32 字节。）

16 对齐意味着只有 16 的倍数的内存地址是唯一有效的地址。

因此，在将 4x4 矩阵发送到金属着色器时，我们需要小心考虑不同的对齐方式。我们来看一个例子：

以下 Objective-C 结构用作缓冲区，用于存储要发送到 Metal 顶点着色器的统一值：

typedef struct
{
  glm::mat4 modelViewProjectionMatrix;
  glm::vec2 windowScale;
  glm::vec4 edgeColor;
  glm::vec4 selectionColor;
} SolidWireframeUniforms;

这个结构定义在一个头文件中，该头文件包含在客户端（即 CPU 端）代码中任何需要它的地方。为了能够在 Metal 顶点着色器端使用这些值，我们需要一个相应的数据结构。在此示例中，Metal 顶点着色器部分如下所示：

#include <metal_matrix>
#include <metal_stdlib>

using namespace metal;
    
struct SolidWireframeUniforms
{
  float4x4      modelViewProjectionMatrix;
  packed_float2 windowScale;
  packed_float4 edgeColor;
  packed_float4 selectionColor;
};

// VertexShaderInput struct defined here...

// VertexShaderOutput struct defined here...

vertex VertexShaderOutput solidWireframeVertexShader(VertexShaderInput input [[stage_in]], constant SolidWireframeUniforms &uniforms [[buffer(1)]])
{
  VertexShaderOutput output;
  // vertex shader code
}

为了将数据从客户端代码传输到 Metal 着色器，统一结构被打包到缓冲区中。以下代码显示了如何创建和更新该缓冲区：

- (void)createUniformBuffer
{
  _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:sizeof(SolidWireframeUniforms) options:MTLResourceCPUCacheModeDefaultCache];
}


- (void)updateUniforms
{
  dispatch_semaphore_wait(_bufferAccessSemaphore, DISPATCH_TIME_FOREVER);

  SolidWireframeUniforms* uniformBufferContent = (SolidWireframeUniforms*)[_uniformBuffer contents];
  memcpy(uniformBufferContent, &_uniformData, sizeof(SolidWireframeUniforms));

  dispatch_semaphore_signal(_bufferAccessSemaphore);
}

注意用于更新缓冲区的memcpy 调用。如果 GLM 和 Metal 数据类型的大小和对齐方式不匹配，就会出现问题。由于我们只是简单地将 Objective-C 结构的每个字节复制到缓冲区，然后在 Metal 着色器端，再次解释该数据，如果数据结构不匹配，数据将在 Metal 着色器端被误解。

在该示例中，内存布局如下所示：

                                              104 bytes
           |<--------------------------------------------------------------------------->|
           |                                                                             |
           |         64 bytes              8 bytes         16 bytes         16 bytes     |
           | modelViewProjectionMatrix   windowScale      edgeColor      selectionColor  |
           |<------------------------->|<----------->|<--------------->|<--------------->|
           |                           |             |                 |                 |
           +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
Byte index | 0| 1| 2|    ...     |62|63|64|  ...  |71|72|    ...    |87|88|   ...    |103|
           +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
                                        ^             ^                 ^
                                        |             |                 |
                                        |             |                 +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                        |             |
                                        |             +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                        |
                                        +-- Is a multiple of 4, aligns with glm::vec2 / packed_float2

除了 4x4 矩阵对齐之外，一切都匹配得很好。 4x4 矩阵的错位在这里没有问题，如上述内存布局所示。但是，如果统一结构被修改，对齐或大小可能会成为问题，并且可能需要填充才能使其正常工作。

最后，还有一点需要注意。数据类型的对齐对需要分配给统一缓冲区的大小有影响。因为SolidWireframeUniforms结构中出现的最大对齐是16，看来uniform缓冲区的长度也必须是16的倍数。

在上面的示例中情况并非如此，缓冲区长度为 104 字节，不是 16 的倍数。直接从 Xcode 运行应用程序时，内置断言会打印以下消息：

validateFunctionArguments:3478: 断言失败`Vertex Function(solidWireframeVertexShader): 来自缓冲区(1) 的参数uniforms[0] 偏移量(0) 和长度(104) 有104 个字节的空间，但参数有一个长度(112) .'

为了解决这个问题，我们需要将缓冲区的大小设置为 16 字节的倍数。为此，我们只需根据我们需要的实际长度计算下一个 16 的倍数。对于 104 来说就是 112，这也是上面的断言也告诉我们的。

以下函数计算指定整数的下一个 16 的倍数：

- (NSUInteger)roundUpToNextMultipleOf16:(NSUInteger)number
{
  NSUInteger remainder = number % 16;

  if(remainder == 0)
  {
    return number;
  }

  return number + 16 - remainder;
}

现在我们使用上面的函数计算统一缓冲区的长度，它改变了缓冲区创建方法（上面发布）如下：

- (void)createUniformBuffer
{
  NSUInteger bufferLength = [self roundUpToNextMultipleOf16:sizeof(SolidWireframeUniforms)];
  _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:bufferLength options:MTLResourceCPUCacheModeDefaultCache];
}

这应该可以解决上述断言检测到的问题。

【讨论】：

绝妙的答案！