リゼロ観察

June 16, 2017

やねうら王作者磯崎さんが最近人の棋譜を使わず全く駒の損得だけから機械学習した評価関数を発表されています。通常、将棋を勉強し始めるときに駒の動かし方の次に習うのがいろいろな戦型とか囲い、定跡などだと思うのですがなんにも知らないAIが自己対局で自由に学習していったときにどのような将棋を指すのかという点でとても興味深いプロジェクトになっています。学習を1ステップ行ったものをepoch 1, 2ステップしたものをepoch2などと呼び、現時点(2017年6月16日)ではepoch 7までが開発されています。詳細については磯崎氏のHPを参照してください(以下、[やね]と参照する)。棋譜はこちらからダウンロードできます。人間の棋譜を使わずに自己学習したソフトがどのような対局をするのかは見る人が見れば面白いと思いますのでご参考にしてください。レーティングについては対局数が少ないのであくまでも目安程度に取っておいてください。対局は1手5秒4スレ i7-6700で行っています。リゼロ側の定跡はすべてoffです。

 

リゼロepoch0 (vs Bonanza 1.2 R2129)

勝敗 YaneuraOu-ReZero0 127 Bonanza Version 1.2 126 レート差 1
千日手 1 持将棋 3 平均手数 141 対局数 257

Ratingの目安はR2130

この対局だけ一手一秒4スレで対局を取った。

[やね]での目安はfloodgate換算でR1800。

 

リゼロepoch 1 (vs GPSfish R2889) 
勝敗 YaneuraOu461t e1 60 GPSfish 44 レート差 53
千日手 0 持将棋 0 平均手数 150 対局数 104
Ratingの目安はR2940

[やね]ではBonanza6程度だったのでそれよりはかなり強いのかもしれない。

 

リゼロepoch 2 (vs Apery WCSC25 R3158)
勝敗 YaneuraOu461t e2 72 Apery_WCSC25 27 レート差 170
千日手 0 持将棋 0 平均手数 147 対局数 99
Ratingの目安はR3330

[やね]ではR3100程度なのでこれもかなり強めに出ている。比較すべきソフトを低く設定してしまったので勝敗の差が多く誤差は大きいと思われる。

 

リゼロepoch 3 (vs Gikou1 R3523)
勝敗 Gikou1 63 YaneuraOu461t e3 36 レート差 97
千日手 1 持将棋 0 平均手数 154 対局数 100
Ratingの目安はR3430

[やね]の測定はR3200程度なのでこれもかなり大きめ。

 

以上、どの測定結果もR200程度[やね]の測定結果からずれている。これは統計誤差というよりは、elmo型の学習を行うと長時間で棋力が伸びることを反映しているのかもしれない。

 

リゼロepoch 7 (vs Gikou2 R3792)
勝敗 Gikou 2 55 YaneuraOu-ReZero7 45 レート差 34
千日手 0 持将棋 0 平均手数 145 対局数 100
Ratingの目安はR3760
ツイッターでリゼロ7のほうがやや強いという結果が出ていたが、こちらは少し弱い程度(誤差範囲)。あちらでは技巧2の定跡を切っていたが、こちらは定跡onで計測。レーティング表では技巧2は定跡onにしていたので定跡を入れた分だけ技巧がやや強くなっているのかもしれない。

 

(追記6/18) リゼロepoch 7については詳しいレーティングも測ろうという事で他のソフトとの対局も行いました。

リゼロepoch 7 vs YO/Qhapaq (R3862) 

勝敗 リゼロ7 40-5-77 Qhapaq (R-109)

 

WCSC27計測の際にお力になっていただいた方たちからもデータを戴いたのでそちらも掲載いたします。寄稿データについてはWCSC27データのそれぞれの方のフォルダに棋譜を置きます。

リゼロepoch 7 vs elmo (R3965) (K.toshiさんより寄稿データ)

勝敗 リゼロ7 47-8-145 elmo (R-186)

リゼロepoch7 vs elmo-qhapaq 1.0 (R3971) (透さんより寄稿データ)

勝敗 リゼロ7 53-4-143 (R-168)

 

これらのデータを統計処理してリゼロepoch 7のレートを出したところR3771, 真やね評価関数を用いたやねうら王と誤差の範囲で同じレートとなりました。これらの結果からリゼロ7の強さは浮かむ瀬評価関数と同じくらいという[やね]の予想と一致することになりました。

 

Please reload

特集記事

以前より、私のツィートや記事にコメントをいただいている、コンピュータ将棋に大変詳しい方(まふさんと名乗られています)が、技巧の定跡の開発を始められました。定跡を作るためのデータとして私がレーティング計測用に作った棋譜ファイルを使っていただいているという縁もあり、新定跡のテストを私が担当することになり...

技巧新定跡(まふ定跡)

December 8, 2016

1/10
Please reload

最新記事

September 30, 2018

Please reload

アーカイブ