【发布时间】:2021-11-14 01:45:41
【问题描述】:
我正在尝试执行近似两个嵌入(文本和视觉)的任务。
对于视觉嵌入,我使用 VGG 作为编码器。输出是 1x1000 嵌入。对于文本编码器,我使用了一个变压器,其输出形状为1x712。我想要的是将这两个向量转换为相同的维度512。
img_features.shape, txt_features.shape = (1,1000),(1,712)
如何在 PyTorch 中做到这一点? 在每个架构中添加最后一层,将输出建模为 512?
【问题讨论】:
标签: python keras deep-learning pytorch