論文中提到,“阿爾法圍棋-零”是無監督學習的產物(機器自己摸索、發現規律),而它的雙胞胎兄弟“阿爾法圍棋-大師”則用了監督學習的方法(人把經驗教給機器)。40天後,前者以89:11的成績戰勝後者。
除學習原理外,新版本“阿爾法圍棋-零”使用了單一的神經網絡。
此前版本的“阿爾法圍棋”都用了兩種神經網絡:一種用來預測下一步棋最好的走法,另一種用來計算,根據這些走法誰更有可能獲勝。
“阿爾法圍棋-零”則只讓神經網絡預測獲勝者,從而能够得到更高效的訓練和評估。它也不再使用快速而隨機的走子方法,而是通過高質量的神經網絡來評估棋局。它和不同版本的自己下棋,然後用勝者思路來訓練新的版本,如此不斷重複。
通過這一方法,“阿爾法圍棋-零”完全摸索出開局、收官、定式等以前人類已知的圍棋知識,也摸索出新的定式。(來源:《新京報》) |