【发布时间】:2022-02-28 03:34:47
【问题描述】:
假设我们在 PyTorch 中有以下神经网络
seq_model = nn.Sequential(
nn.Linear(1, 13),
nn.Tanh(),
nn.Linear(13, 1))
使用以下输入张量
input = torch.tensor([1.0, 1.0, 5.0], dtype=torch.float32).unsqueeze(1)
我可以通过网络向前跑并得到
seq_model(input)
tensor([[-0.0165],
[-0.0165],
[-0.2289]], grad_fn=<TanhBackward0>)
也许我也可以获得单个标量值作为输出,但我不确定如何。 谢谢你。我正在尝试使用这样的网络进行强化学习,并使用它 作为游戏板状态评估的价值函数逼近器。
【问题讨论】:
标签: deep-learning pytorch reinforcement-learning