Floodgateも含めたレート比較(予備観測)

 将棋倶楽部24とのレート比較の調査を終えた後、前回の記事では81Dojoとの比較を行いました。今回はFloodgateとの比較を行いたいと思います。今回の記事は対局数が少なかったり、推察なども入っているのであくまでも予備的なものとお考え下さい。

 手法としては同じ、こちらで私のサイトにおけるレートを測定したソフトをFloodgateに投入、出てきたレートを比較するというものです。用いたソフトは24に投入したuuunuuunLv3 (やねうら王と自作評価関数を組み合わせたもの。ノード数は一手16万ノード。)と海底wcsc27です。最初のソフトは自分でFloodgateに投入、レートを測定しました。海底は本日たまたま見ていたらそれらしいものがすでにレート表に載っていた(??)のでその値を使わせてもらいます。将棋倶楽部24の記事では海底wcsc27とLv3の間はレートの相関がほぼ線形であり、直線の上に載っていましたので、この二つのレートの対応が分かればおおよその感じはつかめると思われます。将棋倶楽部24のレート(24R), 私のサイトのレート(uunR), Floodgateのレート(FGR)を表にまとめると以下のようになりました。

3種類のレートはそれぞれイロレーティングですので、レート差は同じになるはずなのですが、大きく異なっています。レート差で言うと(将棋倶楽部24)>(このサイト)>(Floodgate)という順番になり、24とこのサイトの比は1.4倍、24とFGに至っては3.7倍(!)という値になりました。

 イロレーティングが正しく機能しない理由についてはこれまでも何度か考察してきましたが、基本的には相性問題のため近いレートの対局が多ければ多いほど力の差が大きいプレーヤのレート差が広がってしまうという形になっているようです。将棋倶楽部24はプレーヤー数が圧倒的に大きいため、レート差が広がるのに対し、Floodgateは同時に存在するプレーヤー数が少ないためレート差が大きなプレーヤー間の対局が中心になりレート差が狭まるということだと思います。

 現在FloodgateではYSSのデータを基準にして24Rを比例係数1で表示しています。上で見たようなレートの圧縮・拡大の効果を取り入れていないため大きな誤差が生じているようです。例えば海底の24Rの実測値はR321でしたがFloodgateの24推定値ではR1773となっていてR1000を超える誤差が出ています。またLv3の24R実測値はR2783ですがFGの24推定値はR2435でR350程度の差(しかも大小関係が逆)になっています。プレーヤの分布の差によるレーティングの違いについてはこの際Floodgateでも慎重に見直したほうが良いのかもしれません。

 一方で、ではどのレートを信じればよいのか、という問題もあります。個人的にはすべてのレンジで正しく機能するレーティングというものは存在しないのではないかと思っています。Floodgateは実力の違うソフトが少数だけ集まる場所ですのでレートの起点になっていて常駐しているソフト(現在は技巧2)からの差は正しく表示されるのに対し、別々に参加した同じくらいの棋力のソフトに対して何方がどの程度強いかについては適切な評価を与えていないと思います。私のサイトの場合はある程度近い棋力のソフトの対局が中心なのでそれらの強弱やレート差についてはある程度正しい値を与えるのですが、棋力が大きく違う場合はレートが引き伸ばされている傾向にあるといえます。将棋倶楽部24はその傾向が更に強まっているのではないでしょうか。

 まとめると棋力の違いが大きいソフト間のレート差はFloodgateを目安にし、近い場合は私のサイトのほうがより正確なのではないかと考えます。ご意見などいただけると幸いです。

特集記事
最新記事
アーカイブ
タグから検索
まだタグはありません。
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square