【发布时间】:2016-11-11 15:30:20
【问题描述】:
是否有人知道用于计算两个维度为 A x N 和 N x B 的矩阵之间的 GEMM 风格汉明距离的优化 CUDA 内核?该问题与 GEMM 几乎相同,但它计算每个向量 {1 ... N} 的总和 (a_n != b_n),而不是对每个向量元素进行相乘和求和。
我想在编写自己的代码之前进行验证,因为这个问题比较常见,但我还没有成功找到它的代码。修改代码的建议也很好。
编辑:
除了以下康士因的建议外,我发现this walk-through of an optimized SGEMM implementation 对理解《CUDA C 编程指南》中基本共享内存矩阵乘法示例之外的步骤非常有帮助。
【问题讨论】:
标签: c++ c matrix cuda hamming-distance