【发布时间】:2023-03-04 11:59:01
【问题描述】:
我正在关注this 论文来实施和注意力池网络来构建问答系统。在第 2.1 章中,它谈到了 CNN 层:
q_emb 是一个问题,其中每个标记(单词)都已使用 word2vec 嵌入。 q_emb 的形状为 (d, M)。 d 是词嵌入的维度,M 是问题的长度。以类似的方式,a_emb 是形状为(d, L) 的答案的嵌入。
我的问题是:卷积是如何完成的,W_1 和 b_1 怎么可能在这两个操作中是相同的?在我看来,至少b_1 在每种情况下都应该有不同的维度(它应该是一个矩阵,而不是一个向量......)。
目前我已经在 PyTorch 中实现了这个操作:
### Input is a tensor of shape (batch_size, 1, M or L, d*k)
conv2 = nn.Conv2d(1, c, (d*k, 1))
【问题讨论】:
标签: matrix neural-network conv-neural-network