OpenCL 缓冲区为空答案

【问题标题】：OpenCL buffer is emptyOpenCL 缓冲区为空
【发布时间】：2016-12-03 12:38:08
【问题描述】：

我正在尝试通过本教程https://anteru.net/blog/2012/11/04/2016/index.html 学习如何使用 OpenCL，但是我不认为浮动缓冲区中的值被设置为任何值。当我在最后读取缓冲区时，它全是 0，并以科学计数法查看十进制数字，就像它充满了随机存储器一样。我将在下面发布代码。内核所做的是接受 3 个参数，浮动缓冲区 x、浮动缓冲区 y 和浮动 a。 const int i = get_global_id(0) 和 y[i] += a * x[i]; 问题是（我认为）我从未在 aBuffer 或 bBuffer 中放入任何数字，因此乘法和加法毫无意义。但奇怪的是，当我让内核执行此操作y[i] += a; 时，它仍然会给出相同的输出，而我认为它会给出 2。

main.cpp:

#include <iostream>
#include <vector>


#ifdef __APPLE__
#include "OpenCL/opencl.h"
#else
#include "CL/cl.h"
#endif


using namespace std;




int main(int argc, const char * argv[]) {
    cl_uint platformIdCount = 0;
    clGetPlatformIDs(0, nullptr, &platformIdCount);

    vector<cl_platform_id> platformIds(platformIdCount);
    clGetPlatformIDs(platformIdCount, platformIds.data(), nullptr);
    cout << "Platforms " << platformIdCount << endl;

    cl_uint deviceIdCount = 0;


    clGetDeviceIDs(platformIds[0], CL_DEVICE_TYPE_GPU, 0, nullptr, &deviceIdCount);
    cout << "Devices " << deviceIdCount << endl;

    vector<cl_device_id> deviceIds(deviceIdCount);
    clGetDeviceIDs(platformIds[0], CL_DEVICE_TYPE_GPU, deviceIdCount, deviceIds.data(), nullptr);


    const cl_context_properties contextProperties[] = {

        CL_CONTEXT_PLATFORM,
        reinterpret_cast<cl_context_properties>(platformIds[0]),
    0,0
};
    cl_int error = 0;
    cl_context context = clCreateContext(contextProperties, deviceIdCount, deviceIds.data(), nullptr, nullptr, &error);

    error = 0;

    cl_mem aBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float) * (64), nullptr, &error);
    cl_mem bBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float) * (64), nullptr, &error);



    cl_program program;

    clBuildProgram(program, deviceIdCount, deviceIds.data(), nullptr, nullptr, nullptr);

    cl_kernel kernel1 = clCreateKernel(program, "SAXPY", &error);

    clSetKernelArg(kernel1, 0, sizeof(cl_mem), aBuffer);
    clSetKernelArg(kernel1, 1, sizeof(cl_mem), bBuffer);
    static const float two = 2.0f;
    clSetKernelArg(kernel1, 2, sizeof(float),&two);

    const size_t globalWorkSize [] = {64,0,0};
    cl_command_queue queue;
    clEnqueueNDRangeKernel(queue, kernel1, 1, nullptr, globalWorkSize, nullptr, 0, nullptr, nullptr);



    float done[64];
    clEnqueueReadBuffer(queue, bBuffer, CL_TRUE, 0, sizeof(float)*64, done, 0, nullptr, nullptr);
    for (int a = 0; a < 64; a++) {
        cout << done[a] << endl;
    }




    clReleaseContext(context);
    return 0;
}

.cl 文件：

kernel void SAXPY(__global float* x,__global float* y, float a){
    const int i = get_global_id(0);
    //y[i] = 2.0f;
    y[i] += a * x[i];
}

【问题讨论】：

尝试在clEnqueueNDRangeKernel(queue, kernel1, 1, nullptr, globalWorkSize, nullptr, 0, nullptr, nullptr);之后调用clFinish(queue);。
这是做什么的？
阻塞当前CPU线程并等待直到queue中的所有命令都被OpenCL设备（即GPU）处理完。当您尝试读取缓冲区的值时，您的 kernel1 可能尚未完成计算。
我确实有一个设置可以做到这一点clEnqueueReadBuffer(queue, bBuffer, CL_TRUE, 0, sizeof(float)*64, done, 0, nullptr, nullptr); 我相信 CL_TRUE 意味着在阅读之前等待它完成，但我会尝试一下。我刚试过，我得到了同样的东西
当我找到一些源代码时，我发现了很多错误，并且仍然需要一些帮助来学习这个

标签： c++ kernel buffer opencl gpu

【解决方案1】：

首先，在设置内核参数时，必须pass pointer到内存对象：

clSetKernelArg(kernel1, 0, sizeof(cl_mem), &aBuffer); // &aBuffer, not aBuffer
clSetKernelArg(kernel1, 1, sizeof(cl_mem), &bBuffer); // &bBuffer, not bBuffer

其次，你没有create command queue：

cl_command_queue queue = clCreateCommandQueue(context, deviceIds[0], 0, nullptr);

第三，你没有在clBuildProgram()之前打电话给clCreateProgramWithSource()。

此外，尝试初始化cl_mem 对象：

cl_float* mem = (cl_float*) malloc(sizeof(cl_float)*64);
for(int i=0; i<64; i++)
    mem[i] = i;

cl_mem aBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(cl_float) * (64), mem, &error);
cl_mem bBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(cl_float) * (64), mem, &error);

free(mem);

固定代码：

#include <iostream>
#include <vector>

#ifdef __APPLE__
#include <OpenCL/cl.h>
#else
#include "CL/cl.h"
#endif

using namespace std;


int main(int argc, const char * argv[]) {
    cl_uint platformIdCount = 0;
    clGetPlatformIDs(0, nullptr, &platformIdCount);

    vector<cl_platform_id> platformIds(platformIdCount);
    clGetPlatformIDs(platformIdCount, platformIds.data(), nullptr);

    cl_uint deviceIdCount = 0;
    clGetDeviceIDs(platformIds[0], CL_DEVICE_TYPE_GPU, 0, nullptr, &deviceIdCount);

    vector<cl_device_id> deviceIds(deviceIdCount);
    clGetDeviceIDs(platformIds[0], CL_DEVICE_TYPE_GPU, deviceIdCount, deviceIds.data(), nullptr);

    const cl_context_properties contextProperties[] = {

        CL_CONTEXT_PLATFORM,
        (cl_context_properties)platformIds[0],
        0
    };

    cl_int error = 0;
    cl_context context = clCreateContext(contextProperties, 1, &deviceIds[0], [](const char* errinfo, const void* private_info, size_t cb, void* user_data) -> void {
        /* context-creation and runtime error handler */
        cout << "Context error: " << errinfo << endl;
    }, nullptr, &error);


    cl_float* mem = (cl_float*) malloc(sizeof(cl_float)*64);
    for(int i=0; i<64; i++)
        mem[i] = i;

    cl_mem aBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(cl_float) * (64), mem, &error);
    cl_mem bBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(cl_float) * (64), mem, &error);

    free(mem);

    cl_program program;
    string src = "__kernel void SAXPY(__global float* x, __global float* y, float a){"
                    "size_t i=get_global_id(0);"
                    "y[i]=a*x[i];"
                 "}";

    const char* sources[] = {src.c_str()};
    const size_t lens[] = {src.length()};

    program = clCreateProgramWithSource(context, 1, sources, lens, &error);
    clBuildProgram(program, 1, &deviceIds[0], nullptr, nullptr, nullptr);

    cl_kernel kernel1 = clCreateKernel(program, "SAXPY", &error);
    clSetKernelArg(kernel1, 0, sizeof(cl_mem), &aBuffer);
    clSetKernelArg(kernel1, 1, sizeof(cl_mem), &bBuffer);
    static const float two = 2.0f;
    clSetKernelArg(kernel1, 2, sizeof(float),&two);

    const size_t globalWorkSize [] = {64,0,0};
    cl_command_queue queue = clCreateCommandQueue(context, deviceIds[0], 0, nullptr);

    clEnqueueNDRangeKernel(queue, kernel1, 1, nullptr, globalWorkSize, nullptr, 0, nullptr, nullptr);

    float done[64];
    clEnqueueReadBuffer(queue, bBuffer, CL_TRUE, 0, sizeof(float)*64, done, 0, nullptr, nullptr);
    for (int a = 0; a < 64; a++)
        cout << done[a] << endl;

    clReleaseContext(context);
    return 0;
}

【讨论】：

谢谢，我注意到了其中一些事情，但我错过了很多功能。现在我找到了源代码，我将把它复制到另一个项目中并使用它
我还有一个问题。 Sarasvati 刚刚输入了内核函数，但我认为您实际上可以使用它从文件中读取。 ifstream infile { "file.txt" };字符串文件内容 { istreambuf_iterator(infile), istreambuf_iterator() };为什么字符串带参数。我不知道字符串会这样做。为什么这两个参数几乎相同，它们是什么？
好吧，我可能明白了，如果我错了，请告诉我。所以最后一个参数是指向文件的结尾，比如一个空终止符之类的。第一个参数表示从 infile 中获取字符并将它们放入 file_contents 直到字符等于空终止符。
@BenBeazley 你基本上是对的。接受 2 个迭代器参数的字符串构造函数在 C++ documentation（“(7) 范围构造函数”）中进行了描述。您对这个主题的问题has already been answered，请看一下。
使用calloc 而不是malloc 来获取已经清除的内存。