Leela Zero

圍棋軟件

Leela Zero是由比利時程式設計師Gian-Carlo Pascutto英語Gian-Carlo Pascutto起頭所開發的電腦圍棋軟件,以及相關的運算計劃。專案在2021年2月15日已經中止,並推薦改參與SAIKataGo[2]

Leela Zero
原作者Gian-Carlo Pascutto
開發者Gian-Carlo Pascutto
首次發佈2017年10月26日,​7年前​(2017-10-26
目前版本
  • 0.17(2019年4月4日;穩定版本)[1]
編輯維基數據連結
原始碼庫github.com/leela-zero/leela-zero
程式語言C++
類型電腦圍棋
許可協定GPLv3
網站github.com/leela-zero/leela-zero
Leela Zero Server
原作者Jonathan Roy
開發者Jonathan Roy
首次發佈2018年1月14日,​6年前​(2018-01-14
原始碼庫github.com/leela-zero/leela-zero-server
程式語言Node.js
類型電腦圍棋
許可協定AGPLv3
網站zero.sjeng.org

簡介

Leela Zero是依照DeepMind在科學期刊《自然》上對於AlphaGo Zero所發表的論文《Mastering the game of Go without human knowledge[3]》所實做出的開源電腦圍棋程式[4],也就是不使用人類棋譜與累積的圍棋知識,僅實做圍棋規則,使用單一類神經網絡從自我對弈中學習(不像AlphaGo以人類角度思考,設計了Policy Network與Value Network)。

軟件使用蒙特卡洛樹搜尋(MCTS)模擬與ResNet[4],在蒙特卡洛樹搜尋模擬與自我訓練時都採用Tromp–Taylor規則[5],這個規則的貼目雖然與中國規則相同,都是由黑棋貼7.5目,但在某些情境下可能會有差異。

程式碼部份,用戶端對弈的程式碼與訓練的程式碼以GPLv3授權公開[4],分散式運算的伺服器端程式則以AGPLv3授權公開[6];資料的部份,訓練對弈資料[7]以及訓練對弈的原始資料[8]也可以公開下載[註 1]

與論文的差異

初期時Leela Zero在確認演算法以及程式是否實做正確,所以對論文裏提到的部份參數進行調整,以加快驗證速度:

類神經網絡的架構
AlphaGo Zero使用20 blocks或40 blocks,配上256 filters[3]
Leela Zero是逐步提昇類神經網絡的大小(在近期的版本開始使用Net2Net,將舊的網絡資料轉換到新的網絡上[9]),一開始使用
  • 1 block x 8 filters(2017年11月10日,第0代),並逐步換成
  • 4 blocks x 32 filter(2017年11月17日,第2代,訓練約1.9萬盤時)、
  • 5 blocks x 64 filters(2017年11月21日,第5代,約13.7萬盤時)、
  • 6 blocks x 128 filters(2018年1月20日,第58代,約286萬盤時)、
  • 10 blocks x 128 filters(2018年3月5日,第92代,約481萬盤時)、
  • 15 blocks x 192 filters(2018年4月9日,第117代,約664萬盤時)、
  • 20 blocks x 256 filters(2018年7月28日,第158代,約872萬盤時),到目前使用的
  • 40 blocks x 256 filters(2018年9月4日,第174代,約997萬盤時)[7]
自我對戰訓練的盤數
AlphaGo Zero使用最新的50萬盤訓練[3]
Leela Zero在10 blocks前(不含10 blocks)使用最新的25萬盤自我對戰結果訓練[10](在2018年1月1號前因為有bug,導致只會使用最新的(約)16萬盤自我對戰結果進行訓練[11]),在10 blocks x 128 filters後改用最新的50萬盤自我對戰結果訓練[12]
蒙特卡洛樹搜尋(MCTS)的模擬的次數
AlphaGo Zero在論文裏提到自我訓練或正式對弈時,每一步都使用1600次模擬[3]
Leela Zero一開始使用與AlphaGo Zero的論文相同的1600次,但後來改為3200次[13]

這些調整是希望在比較小的網絡與訓練盤數下快速確認程式的正確性[5]。在每個階段確認沒有重大問題以及bug後會重新評估調昇,並且正式公開向社群尋求運算資源[5]

另外作者發現在原論文裏有瑕疵:論文裏的第一層輸入只有17個,會導致白棋較容易看到棋盤邊緣(指類神經網絡),這在Leela Zero內被修正為18個[4]

目標

早期Leela Zero剛出來時,Gian-Carlo Pascutto的目標是重製AlphaGo Zero的論文結果[4][14]。在後來受到更多關注後,有更多的計算資源與人力投入Leela Zero計劃之中,使得Leela Zero的強度迅速提昇,甚至已經超越先前開發的Leela以及其他對手[14]

現在的目標是希望在流動電話上也能夠有足夠強的圍棋軟件可以使用[14]

訓練

由於作者估算以當時的高階硬件(以NvidiaGeForce GTX 1080 Ti估算)大約需要1700年的計算量才能達到AlphaGo Zero自我學習2900萬盤的水平[15],所以在2017年十一月開始,讓自願者使用自己的硬件,透過作者群開發的AutoGTP程式參加分散式運算計劃(以GTP自動與伺服器溝通以取得計算工作)[7]

  • 在計劃啟動的34天後(2017年12月13日),自我對弈的訓練量超過100萬盤。
  • 59天後(2018年1月8日)超過200萬盤。
  • 74天後(2018年1月23日)超過300萬盤。
  • 100天後(2018年2月18日)超過400萬盤。
  • 119天後(2018年3月9日)超過500萬盤。
  • 138天後(2018年3月28日)超過600萬盤。
  • 166天後(2018年4月25日)超過700萬盤。
  • 218天後(2018年6月16日)超過800萬盤。
  • 261天後(2018年7月29日)超過900萬盤。
  • 299天後(2018年9月5日)超過1000萬盤。

2018年初,志願者申請到超級電腦的部份計算資源,印第安納大學的Big Red II(申請到3360 cores,約該台超級電腦的10.7%資源)[16][17][註 2],另外自0.10版支援純CPU版本(不需GPU),現有演算法的最佳化以及新演算法的引入,這些因素大幅提昇了整體的計算速度。

Leela Zero官方曾鼓勵參與者使用Google Colaboratory所提供的免費運算資源幫助訓練[18],但後來因為檔案裏的操作步驟過時而失效而移除檔案[19]

在2019年十一月時,由於Gian-Carlo Pascutto英語Gian-Carlo Pascutto個人時間的限制,加上最近的50萬盤沒有推進,而且其他的專案有不錯的前景(包括SAIKataGo),宣佈先將訓練盤數加到75萬盤以確認是否到了極限,並暫定於2020年1月31日結束這次長達兩年的訓練[20]

合作

Minigo

Minigo同樣也是依照AlphaGo Zero論文所獨立實做出來的軟件[21],而Minigo專案取得Google贊助的計算資源[21],透過大量計算資源得到質素還不錯的訓練網絡資料。因此Leela Zero的團隊與Minigo的團隊基於雙方的經驗,討論參數的調整能帶來的改善,以及雙方訓練資料共用的可能性[22]

ELF OpenGo

ELF OpenGoFacebook依照AlphaGo ZeroAlphaZero所實做出來的軟件[23],由於Facebook使用大量資源運算(使用2000顆GPU計算兩週)並公開訓練網絡資料,Leela Zero團隊得以將資料轉換為Leela Zero可以使用的格式(Hash值為62b5417b[7]),並進行分析。

Leela Zero後來決定將ELF OpenGo的資料混入自我對弈,在2018年5月7日後引入了ELF OpenGo的資料[24][25]

成績

CGOS

CGOS(英語:Computer Go Server)上會有志願者將每次演化的版本掛上進行測試(19x19)[26]以比較與其他圍棋軟件的差距。

名稱

程式名稱會以LZLeelaZero之類的名稱命名。大致上有幾個不同的版本,像是使用訓練網絡的Hash值為名(如LZ-d6f3a6-t1-p1600[27]),或是使用訓練世代的次數為名(如LZ-000-p1600-t1-r1[28])。

特例

有幾個特別的訓練網絡不是自我訓練產生,而是透過人類頂尖棋手的對弈棋譜產生,用以作為階段性的指標。

名為LZ-HBest1-t1-p1600[29][註 3]的帳號是使用Leela Zero的程式加上以人類棋譜計算出的20 blocks x 256 filters訓練網絡[31]所產生的的版本[32](BayesElo約2650分[33])。

另一個帳號是LZH256x20-t4-nolim[34],也是使用20 blocks x 256 filters訓練網絡,但以CGOS的時間限制,找出Leela Zero的程式與人類棋譜訓練的網絡可以達到的最高成績(BayesElo約3610分[33])。

分數

另外由於CGOS可以任意註冊名稱,有些人會拿較強的軟件摸魚混珠(而非使用Leela Zero),因此CGOS上面的數據需要確認後才有參考價值[35]。在CGOS上測試比較完整的基準參數是t1-p1600(Thread 1、Playouts 1600),但目前(2018年四月)已暫時沒有使用這個參數測試訓練網絡:

  • LZ-c99f1a-t1-p1600[36](第36代,約136萬盤訓練)的BayesElo分數約1830分[33],超越CGOS的分數基準GNU Go(1800分),不過此時對GNU Go的勝率還不高。
  • LZ-097dee-t1-p1600[37](第41代,約146萬盤訓練)後可以穩定對GNU Go獲勝。此時BayesElo分數約2000分[33]
  • LZ-c83e1b-t1-p1600[38](第57代,約266萬盤訓練)的BayesElo分數約2480分[33],這是最後一個5 blocks x 64 filters的版本。
  • LZ-ed002c-t1-p1600[39](第58代,約286萬盤訓練)的BayesElo分數約2460分[33],這是第一個6 blocks x 128 filters的版本。
  • LZ-5773f4-t1-p1600[40](第65代,約314萬盤訓練)的BayesElo分數約2670分[33],是第一個在相同執行參數下,超越以人類棋譜訓練出的版本(即LZ-HBest1-t1-p1600[29]的2650分)。

野狐圍棋

2017年12月16日,貼吧上的志願者以alphaleela的帳號在野狐圍棋上開始測試,以快棋對弈為主,並隨時更新為最新版的訓練網絡。於2017年12月30日(約150萬盤訓練)從級位升到一段,在2018年3月8日(約497萬盤訓練)升到九段[41]

2018世界人工智能圍棋大賽

在預賽取得第三名,僅輸給PhoenixGo絕藝[42]

相關連結

  • AlphaGo Zero,Leela Zero所參考的論文所實做的電腦圍棋軟件。
  • ELF OpenGo,由Facebook團隊依照AlphaGo Zero論文所實做的開源電腦圍棋軟件,並將訓練的數據被Leela Zero團隊納入。
  • Leela,同作者的上一代電腦圍棋軟件。
  • Minigo,另外一套開源電腦圍棋軟件。
  • SAI,改自Leela Zero但支援動態貼目的圍棋軟件。
  • 電腦圍棋
  • 圍棋軟件

參考資料

  1. ^ Release 0.17. 2019年4月4日 [2019年4月4日]. 
  2. ^ 參照錯誤:沒有為名為leelazeroserver"的參考文獻提供內容
  3. ^ 3.0 3.1 3.2 3.3 Mastering the game of Go without human knowledge. 自然 (期刊). 2017-10-18 [2017-12-18]. (原始內容存檔於2018-04-12) (英語). 
  4. ^ 4.0 4.1 4.2 4.3 4.4 gcp/leela-zero: Go engine with no human-provided knowledge, modeled after the AlphaGo Zero paper.. [2017-12-18]. (原始內容存檔於2021-01-06) (英語). 
  5. ^ 5.0 5.1 5.2 Frequently Asked Questions about Leela Zero. [2017-12-18]. (原始內容存檔於2019-02-17) (英語). 
  6. ^ gcp/leela-zero-server: Server side code of the Leela Zero project. [2018-01-14]. (原始內容存檔於2020-09-15) (英語). 
  7. ^ 7.0 7.1 7.2 7.3 7.4 Leela Zero. [2017-12-18]. (原始內容存檔於2018-05-05). 
  8. ^ Raw training data · Issue #167 · gcp/leela-zero. [2018-01-09]. (原始內容存檔於2019-10-18) (英語). 
  9. ^ net2net by Ttl · Pull Request #704 · leela-zero/leela-zero. [2019-04-06]. (原始內容存檔於2019-10-18) (英語). 
  10. ^ Is Leelaz trained off all the the games, or just the more recent ones? · Issue #484 · gcp/leela-zero. 2017-12-24 [2017-12-27]. (原始內容存檔於2019-02-17) (英語). 
  11. ^ How to find Information about the new best network · Issue #78 · gcp/leela-zero. 2018-01-01 [2018-01-03]. (原始內容存檔於2020-11-09) (英語). 
  12. ^ 128x10 transition (6615567e) · Issue #965 · gcp/leela-zero. [2018-04-02]. (原始內容存檔於2020-11-09) (英語). 
  13. ^ Update benchmark to -v3200. · gcp/leela-zero@bce0e3d. 2018-03-13 [2018-04-11]. (原始內容存檔於2019-02-17) (英語). 
  14. ^ 14.0 14.1 14.2 Gian-Carlo Pascutto - The man behind LeelaZero. European Go Federation英語European Go Federation. 2018-05-24 [2018-06-02]. (原始內容存檔於2018-07-06). 
  15. ^ Zero performance. 2017-10-20 [2017-12-18]. (原始內容存檔於2020-01-18) (英語). 
  16. ^ feature request: upload games when time limit is reached · Issue #563 · gcp/leela-zero. [2018-01-08]. (原始內容存檔於2019-02-17) (英語). 
  17. ^ Big Red II - Cray XK7 , Opteron 6276 16C 2.300GHz, Cray Gemini interconnect, NVIDIA K20 | TOP500 Supercomputer Sites. [2018-01-08]. (原始內容存檔於2020-01-03) (英語). 
  18. ^ leela-zero/COLAB.md at 05c5187faad02fd679373f3f9be30ae537ffe8d9 · leela-zero/leela-zero. 2018-04-24 [2019-04-06]. (原始內容存檔於2019-04-25) (英語). 
  19. ^ Remove COLAB Readme. · leela-zero/leela-zero@a1a4af8. 2018-10-23 [2019-04-06]. (原始內容存檔於2019-04-29) (英語). 
  20. ^ End of first training run - next steps. 2019-12-16 [2020-01-02]. (原始內容存檔於2021-02-12) (英語). 
  21. ^ 21.0 21.1 tensorflow/minigo: An open-source implementation of the AlphaGoZero algorithm. [2018-02-02]. (原始內容存檔於2020-11-09) (英語). 
  22. ^ Ideas from Minigo · Issue #785 · gcp/leela-zero. [2018-02-02]. (原始內容存檔於2019-10-18) (英語). 
  23. ^ ELF | Game Research Platform | Facebook AI. [2018-05-06]. (原始內容存檔於2018-05-06) (英語). 
  24. ^ Facebook open sources elf opengo · Issue #1311 · gcp/leela-zero. 2018-05-03 [2018-05-16]. (原始內容存檔於2019-06-05) (英語). 
  25. ^ two best networks in ten hours, is it related with ELF games? · Issue #1362 · gcp/leela-zero. [2018-05-08]. (原始內容存檔於2019-02-17) (英語). 
  26. ^ (CGOS) 19x19 Computer Go Server. [2017-12-20]. (原始內容存檔於2017-12-22) (英語). 
  27. ^ Crosstable for LZ-d6f3a6-t1-p1600. 2018-02-09 [2018-02-25]. (原始內容存檔於2020-07-10) (英語). 
  28. ^ Crosstable for LZ-000-p1600-t1-r1. [2018-02-25]. (原始內容存檔於2018-03-15) (英語). 
  29. ^ 29.0 29.1 Crosstable for LZ-HBest1-t1-p1600. [2017-12-20]. (原始內容存檔於2020-07-10) (英語). 
  30. ^ Version 0.10 released - Next steps · Issue #591 · gcp/leela-zero. [2018-01-14]. (原始內容存檔於2019-10-18) (英語). 
  31. ^ Question: Is there a way to generate up to date ("stronger"?) weights.txt? · Issue #794 · gcp/leela-zero. [2018-02-02]. (原始內容存檔於2019-02-17) (英語). 
  32. ^ LZ-HBest1-t1-p1600 -- human supervised learning network on CGOS : cbaduk. 2017-12-17 [2017-12-20]. (原始內容存檔於2019-02-17) (英語). 
  33. ^ 33.0 33.1 33.2 33.3 33.4 33.5 33.6 19x19 All Time Ranks. [2018-02-02]. (原始內容存檔於2018-01-17) (英語). 
  34. ^ Crosstable for LZH256x20-t4-nolim. 2018-02-19 [2018-03-14]. (原始內容存檔於2020-07-10) (英語). 
  35. ^ Who's running bad LZ bots on CGOS? : cbaduk. [2018-01-05]. (原始內容存檔於2019-02-17) (英語). 
  36. ^ Crosstable for LZ-c99f1a-t1-p1600. 2017-12-26 [2018-01-09]. (原始內容存檔於2020-07-10) (英語). 
  37. ^ Crosstable for LZ-097dee-t1-p1600. 2017-12-31 [2018-01-01]. (原始內容存檔於2020-07-10) (英語). 
  38. ^ Crosstable for LZ-c83e1b-t1-p1600. 2018-01-19 [2018-02-02]. (原始內容存檔於2020-07-10) (英語). 
  39. ^ Crosstable for LZ-ed002c-t1-p1600. 2018-01-22 [2018-02-02]. (原始內容存檔於2020-07-10) (英語). 
  40. ^ Crosstable for LZ-5773f4-t1-p1600. 2018-01-28 [2018-01-29]. (原始內容存檔於2020-07-10) (英語). 
  41. ^ 腾讯围棋. [2018-03-09]. (原始內容存檔於2018-03-08) (中文(中國大陸)). 
  42. ^ 贝瑞基因杯机机大战预赛战罢 绝艺五连胜出线. 2018-04-27 [2018-05-13]. (原始內容存檔於2018-04-30) (中文(中國大陸)). 

註解

  1. ^ 目前的原始訓練資料超過150 GB,故透過BitTorrent的方式提供下載。
  2. ^ 此時是使用5 blocks x 64 filters,從本來約每小時1500局,增加至約每小時3000局,大約多一倍的速度。
  3. ^ Hash值為1e2b85cf611d5ede3f8d77ddc56a7bd79a7f1e51a647ddea428b92c00fdf2612[30],偶而會以1e2b85cf出現在Test Matches的Network Hashes上[7]

外部連結