AlphaGo 零损失函数如何测量 MCTS 概率和 NN 概率之间的相似性？答案

【问题标题】：How does the AlphaGo Zero loss function measure similarity between MCTS probabilities and NN probabilities?AlphaGo 零损失函数如何测量 MCTS 概率和 NN 概率之间的相似性？
【发布时间】：2023-03-04 21:42:01
【问题描述】：

正如您在图片中看到的，AlphaGo Zero 神经网络使用损失函数，该函数使用 MCTS 概率和值作为基本事实标签。我试图了解神经网络的输出是被视为对数（例如实值）还是原始概率（[0,1]）。在损失函数中，看起来 MCTS 概率（我确信位于 [0,1] 中）是向量乘以 NN 概率的对数。这是损失中的一个负项，但是这个项的大小表明两个向量的相似性是什么？为什么值越大表示相似度越高？

【问题讨论】：

标签： machine-learning

【解决方案1】：

正如here 解释的那样，它原来是交叉熵损失的蒙特卡洛估计。

【讨论】：