三すくみ関係(ソフトの間の相性)

このブログではすでに何度も取り上げてきましたが、ソフトのレーティングをつけていくうえでの困難としていわゆる三すくみ関係があります。これはじゃんけんのようにグーはチョキに勝ち、チョキはパーに勝つが、パーはグーに勝つという関係があるとどれが一番強いのか、つまりグー、チョキ、パーにそれぞれレーティングをつけることは無意味です。また、別の言い方をすると、ソフト間に相性があって勝率が統計的な分布からずれてしまう現象です。最近、やねうら王作者の磯崎氏がブログで解説されていたので(考えておられるのはトップソフトの間の微小な相性問題ですが)、考えておられる方も多いと思いますので、この際、私のところで行ったレーティング対局を統計的に処理してまとめておこうと思います。 三すくみ現象をもう少し定量的に言うと、ソフトA, B, Cという3つのソフトがあったとき、AとBの直接対局から得られるAとBのレーティング差をR(A,B)などとしたときR(A,B)+R(B,C)+R(C,A)≠0という関係式が存在するとき三すくみ関係があると考えます。かりに、各ソフトにレーティングR(A), R(B), R(C)があったとすると、R(A,B)=R(A)-R(B)となるはずで上のような和を取るとゼロになるはずなのですが、実際に測ってみるとゼロではない、つまり各ソフトにレーティングがあるという仮定に矛盾が生じてしまうのです。 私の作っているレーティング表では上のようにA,B,Cの間の対局を取っている組み合わせが全部で186組あります。それぞれ、100局程度の対局ですので統計誤差に注意する必要があります。(1) レーティン

Apery新評価関数による棋力の向上

Silent Majority 1.1 とYaneuraOu 2016midはほぼ同じ棋力を持ち、ともにApery評価関数を用いています。デフォールトではAperyWCSC26の評価関数20160307版を用いていますが、現在、開発者の平岡氏がコミュニティーの力を借りて精力的に評価関数の改良を続けています。かなり強くなっているようなので遅まきながら調べてみようと思い始めました。対局相手は技巧で4スレ同士の対局ではSilent Majority, YaneuraOu共にレーティングが100以上離れていました。評価関数を新しいものにしたときにどのように対局結果が変わるのかを見ていこうと思います。それぞれ結果が出るたびにツィッターでつぶやき、それをこちらに追記していく形にしていこうと思います。棋譜はこちらに置いています。新評価関数に変更することによりApery評価関数を用いるているソフトはすべて強化されます。(Apery, Silent Majority, YaneuraOu 2016mid, god_whale_std4a, Usapyon2)。現段階(201600803)ですでにR100程度の向上が見られており、今後さらに伸びていくものと考えられます。 Aperyの新評価関数はAperyGenerateTeacherのページから最新バージョンを手に入れ、展開した後binディレクトリに入っている日付(20160803など)に入っています。これはもともとApery強化用に配布されているものですので、評価関数を使うときには、Apery強化にも協力いたしましょう。これらのフォルダーをフォ

将棋ソフトのベンチマーク

異なるスペックのPC上の将棋ソフトがCPUによりどのように棋力が違うかは将棋ソフトに特化したベンチマークによりかなり詳しく知ることができます。このサイトでは2台のPC(CPU1: Intel Xeon E3-1245 3.3GHz, CPU2: Intel Core i7 6700 , 3.4GHz, 共に4コア 8スレッド RAM: 16GB)でレーティングを測っていますが、双方1手5秒で測っているもののNPSである程度の差があるというのは経験的に知っていて対局条件にどれくらい影響を与えるのか気になっていました。また、このサイトで行っている1手5秒の対局とこのページを読まれている皆さんのPCが1手何秒に対応するのか、また、私のテストPCと皆さんのPCとではどの程度NPS(=ソフトの強さ)が違うのかということは、ベンチマークを走らせればある程度評価できます。 ベンチマークが行える将棋ソフトとして私が確認できたのは(1) YSS (2) GPSfish (GPSshogi) (3) Usapyon2 (4) YaneuraOuファミリーです。Aperyと技巧は私の技量ではベンチマークのコマンドがどうなっているのかすぐにはわかりませんでした。(1)についてはYSSのサイトにベンチマークソフトが公開されていますのでコマンドプロンプト上で動かしテストを何秒で終わらせることができるかで強さを判断します。(2,3,4)についてはベンチマーク専用のソフトはありませんが、それぞれのソフトをオプションをつけてコマンドプロンプトで起動することにより一秒あたりに読む手数(node/second)が

特集記事
最新記事
アーカイブ
タグから検索
まだタグはありません。
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square