【发布时间】:2023-03-04 21:42:01
【问题描述】:
正如您在图片中看到的,AlphaGo Zero 神经网络使用损失函数,该函数使用 MCTS 概率和值作为基本事实标签。我试图了解神经网络的输出是被视为对数(例如实值)还是原始概率([0,1])。在损失函数中,看起来 MCTS 概率(我确信位于 [0,1] 中)是向量乘以 NN 概率的对数。这是损失中的一个负项,但是这个项的大小表明两个向量的相似性是什么?为什么值越大表示相似度越高?
【问题讨论】:
标签: machine-learning