【发布时间】:2021-10-08 01:03:18
【问题描述】:
3d CNN 适用于视频、MRI 和扫描数据集。你能告诉我如果我必须将输入(视频)提供给提议的 3d CNN 网络,并训练它的权重,我怎么能做到这一点?由于 3d CNN 期望 5 维输入;
[batch size, channels, depth, height, weight]
如何从视频中提取深度?
如果我有 10 个不同课程的 10 个视频。每个视频的持续时间为 6 秒。我每秒提取 2 帧,每个视频大约 12 帧。
RGB 视频大小为 112x112 --> 高度 = 112,宽度 = 112,通道 = 3
如果我保持批量大小等于 2
1 个视频 --> 6 秒 --> 12 帧(1 秒 == 2 帧)[每帧 (3,112,112)]
10 个视频(10 个类)--> 60 秒--> 120 帧
所以 5 个维度将是这样的; [2, 3, 12, 112, 112]
2 --> 每个批次大小将处理两个视频。
3 --> RGB 通道
12 --> 每个视频包含 12 帧
112 --> 每个视频的高度
112 --> 每个视频的宽度
我说的对吗?
【问题讨论】:
标签: python-3.x tensorflow deep-learning pytorch video-processing