三すくみ関係(ソフトの間の相性)

August 21, 2016

このブログではすでに何度も取り上げてきましたが、ソフトのレーティングをつけていくうえでの困難としていわゆる三すくみ関係があります。これはじゃんけんのようにグーはチョキに勝ち、チョキはパーに勝つが、パーはグーに勝つという関係があるとどれが一番強いのか、つまりグー、チョキ、パーにそれぞれレーティングをつけることは無意味です。また、別の言い方をすると、ソフト間に相性があって勝率が統計的な分布からずれてしまう現象です。最近、やねうら王作者の磯崎氏がブログで解説されていたので(考えておられるのはトップソフトの間の微小な相性問題ですが)、考えておられる方も多いと思いますので、この際、私のところで行ったレーティング対局を統計的に処理してまとめておこうと思います。

 

三すくみ現象をもう少し定量的に言うと、ソフトA, B, Cという3つのソフトがあったとき、AとBの直接対局から得られるAとBのレーティング差をR(A,B)などとしたときR(A,B)+R(B,C)+R(C,A)≠0という関係式が存在するとき三すくみ関係があると考えます。かりに、各ソフトにレーティングR(A), R(B), R(C)があったとすると、R(A,B)=R(A)-R(B)となるはずで上のような和を取るとゼロになるはずなのですが、実際に測ってみるとゼロではない、つまり各ソフトにレーティングがあるという仮定に矛盾が生じてしまうのです。

 

私の作っているレーティング表では上のようにA,B,Cの間の対局を取っている組み合わせが全部で186組あります。それぞれ、100局程度の対局ですので統計誤差に注意する必要があります。(1) レーティングの計算法はAとBの対局でAから見てX勝Y分Z負の場合、引き分けは0.5勝を双方に割り振ることにすると、

R(A,B)=400*log_10((X+Y/2)/(Z+Y/2))

(2) レーティングの統計誤差は近似式を用いることにして1σが

E(A,B)=173*SQRT((X+Y+Z)/(X+Y/2)(Z+Y/2))

(3) R(A,B)+R(B,C)+R(C,A)の統計誤差は誤差伝搬を用いて

ERR=SQRT(E(A,B)^2+E(B,C)^2+E(C,A)^2))

としています。

かりに統計数を大きくしたときR(A,B)+R(B,C)+R(C,A)=0となることを仮定すると、実測値で

T(A,B,C)=|R(A,B)+R(B,C)+R(C,A)|/ERR

が1以内になるのが68%, 2以内が95%, 3以内が99.7%となるはずです。通常は2σを超えると有意にずれがあるといえます。

 

私がレーティング用に行った対局に対してT(A,B,C)をそれぞれ計算し、ヒストグラム表示をすると以下のようになりました。

 割合でいうと1σ以内が55%, 2σ以内が84%、残りの16%のソフトの組み合わせ(全部で35個)には統計的に有意に三すくみ現象が見られるといってよいと思います。対局数を大きくすると誤差は減っていくので三すくみ現象がみられる組み合わせはもっと大きくなるはずです。

 

個人的にはソフト間の相性問題は多かれ少なかれすべてのソフトの間にあると思います。今の将棋ソフトは(1) 評価関数 (2) 探索方法 (3) 定跡 など多数のコンポーネントの組み合わせであり、それぞれのソフトでそれぞれのコンポーネントに対する工夫がなされています。それをたった一つの指標であるレーティングで一元的に強さを表せると考える方がおかしいと思います。これは、3すくみ関係が最もはっきりと表れるのが有限depthの技巧(極端に探索が浅く、一方で大変優秀な評価関数を持っている, G8などと表示)であることからうかがえます。あと、個人的に目につくのはBlunder (BL12などと表示)、Bonanzaよりも下位のソフトで、これらのソフトの場合は将棋ソフトを構成するコンポーネントのどれかに偏りがあり、相性問題

が出ているのではないかと考えます。この辺はいまのところ大雑把な印象なのですが、今後もう少し調査を行ってその辺を明らかにしていきたいと考えています。

追記 8/26: 三すくみの割合が大きすぎるものはソフト設定ミスの可能性もあります。現在検証中です。(Blunder11はPonder offの設定をミスしていたことが判明。現在再調査中です)

追記 8/28: Blunder11のデータをすべて更新。極端に三すくみ度が大きいものはかなり減りましたが、まだ2σ以上のデータが多く残っています。

 

最後に、一覧表を掲載しておきます。何かお気づきの点があればご指摘いただけると幸いです。ソフト名が短縮形で分かりにくいようでしたら、必要に応じて対応表を追記いたします。

 

Please reload

特集記事

以前より、私のツィートや記事にコメントをいただいている、コンピュータ将棋に大変詳しい方(まふさんと名乗られています)が、技巧の定跡の開発を始められました。定跡を作るためのデータとして私がレーティング計測用に作った棋譜ファイルを使っていただいているという縁もあり、新定跡のテストを私が担当することになり...

技巧新定跡(まふ定跡)

December 8, 2016

1/10
Please reload

最新記事

September 30, 2018

Please reload

アーカイブ