将棋ソフトのレーティングと引分率

これまでレーティングの測定のため7000局くらいの対局を自分のパソコンでやらせてきたのですが、ある種の傾向を感じることがあります。その一つとしてレーティングが高いソフト同士の対局では引分が増えているのではないかということです。まず、私のサイトでは通常の千日手以外に時間の節約のため256手で引分にしていることにご留意ください。したがって引分と行ってもそのまま続けていけば詰みまで行ったり、入玉の末、点数計算で勝負が付く場合も含んでおります。一応エクセルでまとめるとこんな感じになります。 この表ではソフト名に略号を使っているのでもっと詳しいソフト名が知りたい方はこのサイトのトップページを御覧ください。この表をグラフにすると以下のようになります。 強くなればなるほど引分が増えるという傾向がある程度見えていると思いうのですがいかがでしょうか。調べているソフト達がレーティングにして上下で800くらいの差が出てきたため、このような傾向が定量的に見えてきたのかなと思います。 次に、考察ですが私は将棋もコンピュータも素人なのでそれほどあてにはなりませんが、ご参考までに述べさせていただきます。勘違いなどしているようでしたらご指摘願えると幸いです。 1.レーティングが3000以下のソフトではほとんど引分が起こっていないのは、これらのソフトは比較的古い(2011~12年くらい)時期に開発されたソフトで、その頃のソフトは入玉が苦手であったと理解しています。手数が伸びる大きな要因は入玉なのでこれらのソフトでは引分は千日手以外には殆ど起こらないように見えます。レーティングが3000超あるGPSfish_mi

lazy SMPによるレーティング向上について

lazy SMPに対応した最近のソフトではスレッド数をCPUコア数より増やした場合にNPSが増加しレーティングも向上されます。私のテスト用PCは2台とも4コア8スレッドですので、同じソフトを4スレッドと8スレッドで動かしたものを対局させた時に勝率がどうなるか幾つかのソフトで見ていこうと思います。対局条件はこのサイトの設定基準と同じで、初手より一手5秒です。それぞれNPSが4割から6割程度増加するため相応に強くなるように思われます。統計精度はあまり高くないものの、有意に強くなっているもの、はっきりしていないもの、いろいろあるように思えます。 ソフト名 8スレッド 勝-分-負 4スレッド (レーティング差±統計誤差1σ) Silent Majority: 130 - 21- 49 (169 ±28) YaneuraOu classic-tce: 63-13-24 (168 ±41) Usapyon2 : 63-10-34 (107 ±36) tanuki-WCSC26: 55-5-40 (55 ±35) Apery WCSC26: 72-8-60 (32 ±30) 注意: Silent Majority: 8スレッドはAVX2対応版、Apery WCSC26の評価ファイル、 4スレッドはSSE42版Apery_twigの評価ファイルを使用。 Usapyon2は8スレッドはWCSC26版、4スレッドはbeta 3.2d版 tanuki-は8スレッドはlazy smp版、4スレッドはybwc版 追記 (2016/05/31) 自己対局で出たレート差は他のソフトとの対局も行

Silent Majority強し

現在のところの当サイトの結果。Silent MajorityはオリジナルサイトにあるSSE42版です。 すべて一手5秒対戦、CPUは4 core 4 threadにしています。全部合わせると800回対戦しています。 対Apery_twig_SSE42, 145勝37敗 (レート差237) 対Apery_twig_BMI2, 64勝30敗 (132) 対AperyWCSC26_SSE42, 65勝29敗(140) 対AperyWCSC26_BMI2, 66勝25敗(169) 対YaneuraOu classic-tce, 68勝29敗 (148) 対Usapyon2, 77勝14敗 (296) 以上の結果はBestBookMove on (Apery, SM), Narrow book on (YaneuraOu)での対戦 BestBookMove off (Apery, SM), Narrow book off (YaneuraOu)での対戦は 対YaneuraOu classic-tce, 77勝21敗 (226) となりました。Aperyファミリーにはレート差が150-200, 系列が違うYaneuraOu, Usapyon2に対しても同じ、またはそれ以上の差があることがわかります。 (ワンパターンの将棋を避けるためBestBookMoveなどを外すとさらに差が広がる) 設定を変えても異系列であっても他強豪ソフトを圧倒している印象です。 あまりにも強いので疑問に思い、様々な相手、設定で対局させましたが、まんべんなく強いと思わざるを得ません。

絶対的レーティングは存在するのか

前から、ずっと悩んでいることとして系統誤差の問題があります。最近skylakeプラットホーム上のレーティングを計測し始めて、改めてその問題に直面せざるを得ませんでした。現在のところ暫定的にIvyBridgeとskylakeのデータをマージして総合レーティングを出しているのですが、一部のソフトのレーティングの変動が統計誤差よりも大きくなってしまいました。^^;) 要因として考えられるのは新しい強いソフトを計測ソフトグループの中に入れたことでした。私の今のレーティングの計算法では各ソフト間のレーティング差を重み付きの最小自乗法でフィッティングしています。この方法ですとどのようなソフトが中に入っているかによって、ソフト間の相性のような問題で各ソフトに割り当てられるレーティングが変動してしまいます。 Apery系(あるいはYaneuraOu系)のソフトだけ、対象にしていればおそらくこのような問題は起こらないと思うのですが、GPS, Blunder, Bonanzaなどの毛色の違うソフトが入ると2つのソフト間の勝率からだけから決まるレーティングは絶対的な意味を持たず、異なるDNAを持つソフトがどれだけ多く混ざっているかでよって変動する相対的概念ではないかという、おそらく当たり前の事実にようやく気付かされました。

特集記事
最新記事
アーカイブ
タグから検索
まだタグはありません。
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square