在內容中,研究者重點關注了「神經網絡是如何學習的」「知識又如何被量化表示」等問題。
有意思的是,他們發現:
在沒有人類對弈指導下,AlphaZero 仍形成了一套類似專業棋手才懂的概念體系。研究者還進一步探尋了這些概念何時何處形成。
此外,他們還對比了 AlphaZero 與人類開局棋風的不同。
有網友感慨,這是個影響深遠的工作:
也有人感慨,AlphaZero 能計算任何人類行為特征了?!
欲知更多觀察結果,往下看。
掀起了神經網絡的頭蓋骨
AlphaZero 于 2017 年由 DeepMind 發布并一鳴驚人。
這是一種神經網絡驅動的強化學習器,專精于棋類,內部包含了殘差網絡(ResNet)骨干網及分離的策略及價值 heads。
其輸出函數可表示如下,z 為國際象棋排布情況:
為研究 AlphaZero 如何「學習」的,研究者構建了一個人類理解國際象棋的函數 c (z0)。其中,z0 為一個象棋特定排布概念,c (z0) 以專業國際象棋引擎 Stockfish 8 評估分數作為參考。
再從 AlphaZero 角度,設一個廣義線性函數 g (zd),作為在不同層取值的探針。訓練設定下,g (zd) 將不斷趨近

