glVertexAttribPointer、交错元素和性能/缓存友好性答案

【问题标题】：glVertexAttribPointer, interleaved elements and performance / cache friendlinessglVertexAttribPointer、交错元素和性能/缓存友好性
【发布时间】：2011-09-17 04:03:02
【问题描述】：

因此，在为我正在处理的 3D 场景编写模型加载器的过程中，我决定像这样打包顶点、纹理和法线数据：

VVVVTTTNNN

对于每个顶点，其中 V = 顶点坐标，T = UV 坐标，N = 法线坐标。当我将此数据传递给场景的顶点着色器时，我会调用三个 glVertexAttribPointer，如下所示：

glVertexAttribPointer(ATTRIB_VERTEX, 4, GL_FLOAT, 0, 10, group->vertices.data);
glEnableVertexAttribArray(ATTRIB_VERTEX);

glVertexAttribPointer(ATTRIB_NORMAL, 3, GL_FLOAT, 0, 10, group->normals.data);
glEnableVertexAttribArray(ATTRIB_NORMAL);

glVertexAttribPointer(ATTRIB_UV_COORDINATES, 3, GL_FLOAT, 0, 10, group->uvcoordinates.data);
glEnableVertexAttribArray(ATTRIB_UV_COORDINATES);

每个被传递的组指针都指向共享顶点数据块中该顶点类型开始的起始位置：

group->vertices.data == data
group->uvcoordinates.data == &data[4]
group->normals.data == &data[7]

我交错这些数据的部分原因是为了缓存友好性并最大限度地减少发送到卡的数据。（注意：这不是一个现实的性能瓶颈。我正在研究优化，因为我想了解更多关于编程来解决这些问题的知识。）但是，对于我的生活，我无法想象 GL 会如何能够推断出 3 个不同的指针指向同一个较大数据块内的偏移位置，从而进行必要的优化以避免在数据已经复制后复制数据。此外，由于我只确保系统内存中的数据局部性（并且对如何在 GPU 上组织这些数据并没有任何保证），所以我只是针对访问任何这些顶点在 GL 之外。那正确吗？这些优化大部分是无用的，还是以这种方式提供数据有助于最大限度地减少向 GPU 的数据传输/防止在顶点着色器中迭代顶点数据时缓存未命中？

【问题讨论】：

标签： c performance caching opengl gpu

【解决方案1】：

OpenGL只是一个API，智能在于驱动。无论如何，这个问题实际上实现起来相当简单：对于每个顶点属性，您都有一个起始内存地址，并且在调用 glDrawArrays 或 glDrawElements 时会查找找到的最大索引。这定义了范围的上限。

然后对顶点属性的起始地址进行排序，并为每个地址检查它的范围是否与任何其他顶点属性范围重叠。您找到相邻区域并复制它们。

在顶点缓冲区对象的情况下，它甚至更简单，因为您已经将内容复制到 OpenGL 以进行处理。

【讨论】：

确实如此，甚至没有考虑对地址进行排序。是的，绝对是：VBO——只是对不同的方法感到好奇。谢谢！