重复的可变参数模板参数答案

【问题标题】：Duplicate variadic template parameter重复的可变参数模板参数
【发布时间】：2019-02-04 16:42:56
【问题描述】：

上下文：

我是一名初级软件工程师，希望我没有重新发明轮子，请告诉我。我想创建一个模板函数，它包装并明智地调用另一个函数元素。例如：

// returns a*x + y
__device__ float saxpy(float a, float x, float y) {
  return a*x + y;
}


int main() {
  int A[4] = { 1,2,3,4 };
  int X[4] = { 1,2,3,4 };
  int Y[4] = { 1,1,1,1 };

  // A*X   = 1,4,9,16
  // A*X+Y = 2,5,10,17
  float *C = cudaReduce(saxpy, A, X, Y);

  for (int i = 0; i < 4; i++)
    printf("%d, ", C[i]); // should print "2, 5, 10, 17, "

  std::cin.ignore();
  return 0;
}

重要的是，我想创建这个包装器，以便在我执行元素操作时很好地包装 cuda 调用。虽然非常不完整，但这是我对函数包装器的伪代码尝试。

我想提供一个最小的例子；但是，我对如何处理 C++ 的某些方面知之甚少，因此请原谅大量注释伪代码：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <iostream>

// returns a*x + y
__device__ float saxpy(float a, float x, float y) {
  return a*x + y;
}

// finds return type of function pointer
template<typename R, typename... A>
R ret(R(*)(A...));
template<typename C, typename R, typename... A>
R ret(R(C::*)(A...));

template<typename F, size_t N, typename... Args>
auto cudaReduce(F &f, Args(&...argsarray)[N]) {
  cudaSetDevice(0);

  // ret is function f's return type
  typedef decltype(ret(f)) ret;
  ret d_out[N], h_out[N];
  // cudaMalloc((void**)&d_out, sizeof(d_out));
  sendToCuda(argsarray...); // allocates and copies all contents of argsarray to cuda

  // reduceKernel<<<1, N>>>(f, d_out, dev_argsarray...);

  // cudaDeviceSynchronize();
  // cudaMemcpy(h_out, d_out, sizeof(h_out), cudaMemcpyDeviceToHost);
  // cudaFree(d_out);

  // for d_args in d_argsarray
  //   cudaFree(d_args);

  return h_out;
}

template<typename F, size_t N, typename Out, typename... Args>
__global__ void cudaReduceKernel(F &f, Out(&out)[N], Args(&...argsarray)[N]) {
  int tid = threadIdx.x;
  int i = tid + blockIdx.x * blockDim.x;

  // Below is invalid syntax; however, the 'pseudo-code' is what I'd like to achieve.
  // out[i] = f(argsarray[i]...);
}

// cuda malloc and memcpy
template<typename Arg, size_t N>
void sendToCuda(Arg(&args)[N]) {
  size_t buffer = sizeof(args);
  //cudaMalloc((void**)&dev_arg[ ??? ], buffer);
  //cudaMemcpy((void**)&dev_arg[ ??? ], args, buffer, cudaMemcpyHostToDevice);
}
template<typename Arg, size_t N, typename... Args>
void sendToCuda(Arg(&args)[N], Args(&...argsarray)[N]) {
  sendToCuda(args);
  sendToCuda(argsarray...);
}

int main() {
  int A[4] = { 1,2,3,4 };
  int X[4] = { 1,2,3,4 };
  int Y[4] = { 1,1,1,1 };

  // A*X   = 1,4,9,16
  // A*X+Y = 2,5,10,17
  float *C = cudaReduce(saxpy, A, X, Y);

  for (int i = 0; i < 4; i++)
    printf("%d, ", C[i]); // should print "2, 5, 10, 17, ", currently prints undefined behaviour

  std::cin.ignore();
  return 0;
}

我意识到并不是每个人都有时间完全审查代码，所以我将关键问题归结为几点：

1。是否可以复制可变参数模板输入，如果可以的话如何？ EX（不是真正的代码）：

template<typename... Args>
void foo(Args... args) {
  Args... args2;
}

这是必需的，以便我可以将输入参数复制到 cuda malloc() 和 memcpy() 的输入参数。

2。我将如何处理可变参数数组参数的第 i 个元组，例如在 python 中压缩。 EX（不是真正的代码）：

template<typename... Args, size_t N>
void bar(Args(&...argsarray)[N]) {
  // (python) ithvariadic = zip(*argsarray)[i]
  auto ithvariadic = argsarray[i]...;
}

【问题讨论】：

你可能想要std::tuple: std::tuple<Args...> t{args...};。
不幸的是，我收到“不允许输入不完整的类型”

标签： c++ c++11 templates cuda variadic-templates

【解决方案1】：

是否可以复制可变参数模板输入，如果可以，怎么做？ EX（不是真正的代码）：

template <typename... Args>
 void foo(Args... args) {
  Args2... args;
 }

不是这样的。

Args... 类型名是 args... 参数的可扣除项。

但是关于Args2...？你怎么能推断出它们？你想解释一下吗？

但是你确定你需要不同的类型吗？

如果你不需要不同的类型列表，我能想象的最好的，正如 Jarod42 所建议的，是使用元组

如下

template <typename ... Args>
void foo (Args ... args)  
 {
   std::tuple<Args...> tpl { args... };

   // do something with tpl`
 }

或者，如果您想启用完美转发，

template <typename ... Args>
void foo (Args && ... args)  
 {
   std::tuple<Args...> tpl { std::forward<Args>(args)... };

   // do something with tpl`
 }

如何处理可变参数数组参数的第 i 个元组，例如在 python 中进行压缩。 EX（不是真正的代码）：

template<typename... Args, size_t N>
void bar(Args(&...argsarray)[N]) {
  // (python) ithvariadic = zip(*argsarray)[i]
  auto ithvariadic = argsarray[i]...;
}

怎么样

template <typename ... Args, std::size_t N>
void bar (Args (&...argsarray)[N])
 {
   for ( auto ui = 0u ; ui < N ; ++ui )
    {
      std::tuple<Args...> ithvariadic { argsarray[ui]... };

      // do something with ithvariadic
    }
 }

【讨论】：

抱歉，我在示例中创建了一个类型，我的意思是类似于“Args ... args2”的意思，我在上面编辑了我的问题。无论如何，如果我通过让我们说一个 int、int、char，那么 args2 将始终是相同的类型。这可能吗？
@MichaelChoi - 不，据我所知，这不可能完全符合您的要求。但是，正如 Jarod42 所建议的那样，正如我在回答中所写的那样，你可以写一些 std::tuple<Args...> tpl;，这样你就可以获得包装在一个元组中的 args2...。