从神经网络调整特征向量的大小答案

【问题标题】：Resize feature vector from neural network从神经网络调整特征向量的大小
【发布时间】：2021-11-14 01:45:41
【问题描述】：

我正在尝试执行近似两个嵌入（文本和视觉）的任务。对于视觉嵌入，我使用 VGG 作为编码器。输出是 1x1000 嵌入。对于文本编码器，我使用了一个变压器，其输出形状为1x712。我想要的是将这两个向量转换为相同的维度512。

img_features.shape, txt_features.shape = (1,1000),(1,712)

如何在 PyTorch 中做到这一点？在每个架构中添加最后一层，将输出建模为 512？

【问题讨论】：

【解决方案1】：

您可以应用可微分 PCA 运算符，例如 torch.pca_lowrank。
另外，更简单的解决方案是使用两个完全连接的适配器层来学习两个映射。一个用于图像功能1000 -> n，另一个用于文本功能：712 -> n。然后你可以选择一种融合策略来组合(1,n) 的两个特征：使用连接，逐点加法/乘法（在这些情况下n 应该等于512。Esle 你可以学习最终映射@ 987654328@.

【讨论】：