Alpha zeroと将棋ソフトの家庭用PCにおける比較

December 12, 2017

Deep Mind社によるAlpha zeroと現存する将棋ソフトの比較、それぞれGPUとCPUを主に用いるソフトであるということでアーチテクチャが異なるためなかなか数値的に直接比較しにくいと思われます。しかし論文(Silver et. al. arXiv:1712.01815)とネットにあるデータである程度は比較可能ではないかと思いましたのでこの記事では私の試算を示します。いろいろなデータをつなぐのでラフな評価にしかなりませんが、このような比較がこれまでに無いようですので一応ご参考までにということで。なにか、数値や計算式で私の勘違いがあるようでしたらいつでも変更いたしますのでご指摘ください。私が用いる資料としては

  • Alpha zeroとelmoの対局結果がAlpha zero 90-2-8 elmoであったこと。(イロレーティング差約400) 論文中に記載

  • Alpha zeroが対局で用いたハードはGoogle TPU 4個。記載はないけれども第二世代と想定。一個あたり180TFlop, 4個で720TFlop (資料がないので線形近似)日本の記事。家庭用PCで用いられるGPUとしてはある程度高性能のものということでNVidia GTX 1070(時価4万5千円)を選択。メーカーの表示では6.4TFlop。TPUとの性能差は約100倍。

  • 論文中では10秒と0.1秒におけるAlpha zeroのEloレートの差は約1600 (Figure 2)。ちょうど1/100なので家庭用GPUで動かした(動く)とするとレートが1600下がるはず。

  • DeepMind社が用いた用いた将棋ソフトが動いているPCのスレッド数は64スレッド(5ページ1行目)。CPUは明らかではないが、論文最後のページではNPSは約35MNPSと記載してある。一方家庭用のCPUをCore i7 6700として4スレッドでは3MNPS。約12倍。論文中のデータではノード数100倍でelmoのレートは1200上がっているように目算できる(Figure 2)。対数スケールで考えると600*log10(12)=650レートが上がると考えられる。

  • これから、DM論文中でのelmoのレートはR3940(elmo_WCSC27の現在のレート)+650=R4600。Alpha zeroのレートはこれより400高いとしてR5000(!)家庭用GPUで動かせたとするとこれよりもR1600低いということなのでR3400

結論的には家庭用PCで動かしたときのAlpha Zeroは最高レベル将棋ソフトに比べると(やねうら王+AperyでR4120)、700程度の差があるので誤差を考慮したとしても既存のソフトにはまだ達していないように見えます。ただし、ハードを無制限にしたときのレートについてはやねうら王の並列化がどこまでできるかということも含めるとよくわかりません。Alpha Zeroが勝つのかな、、個人的にはR5000の将棋というものがどのようなものかぜひ棋譜を見てみたいと思います。

Please reload

特集記事

以前より、私のツィートや記事にコメントをいただいている、コンピュータ将棋に大変詳しい方(まふさんと名乗られています)が、技巧の定跡の開発を始められました。定跡を作るためのデータとして私がレーティング計測用に作った棋譜ファイルを使っていただいているという縁もあり、新定跡のテストを私が担当することになり...

技巧新定跡(まふ定跡)

December 8, 2016

1/10
Please reload

最新記事

September 30, 2018

Please reload

アーカイブ