将棋倶楽部24レートとの比較(最終版)

February 4, 2018

# 2018/06/10 下位ソフトのデータを大量に追加したためレートの圧縮が起こり解析データがだいぶ変更になりました。

# 2018/07/28 フィッティング関数を2次関数にしたところいい感じになったので追記しました。

 

前回の記事に引き続き、将棋クラブ24との比較レポートです。レートを比較するソフトが少なかった(海底wcsc28版, Lv1, Lv2, Lv3)ので海底の新しいバージョン(sdt5版), Lv1, Lv2, Lv3のノード数(読む盤面数)を半分にしたもの(以下Lv1a, Lv2a, Lv3aとします)を24で対局させました。対局条件やソフト設定などをもう一度まとめておくと

  • 人間側:将棋倶楽部24早指し(30秒将棋)

  • ソフト側:

    • 海底将棋一手5秒, スレッド数1(海底はマルチスレッドに対応していない)ソフトとしては自然な指し手、居飛車党。wcsc27版、sdt5版。

    • Lv1~Lv3aなどはYaneuraOu 4.76KPP/KKPTに0ベクトルから学習させた自作評価関数を組み合わせたもの。育成度が低いLv1は評価関数に穴が開いているので悪手を指しやすい。またそれなりに成熟したLv3では悪手は減るけれども人間の将棋は学習していないので独特の棋風です。定跡はやねうら王標準定跡(standard_book.db)で居飛車振り飛車両方指します。ノード数制限をしているので一手0.1秒未満。(私のパソコンで4スレッドで1秒読ませると約3,000,000手読みます。)

      • Lv1: 評価関数Lv1, ノード数 8,000, Lv1a ノード数 4,000

      • Lv2: 評価関数Lv2, ノード数 24,000, Lv2a ノード数 12,000

      • Lv3: 評価関数Lv3, ノード数 160,000, Lv3a ノード数 80,000

現在のレート(Lv1a, Lv2a, Lv3aに対応)はこうなってます。

 

前回と比べるとレートが少し落ちています。ノード数を半分にするとソフトは弱くなるのでそれが24のレートでも反映された形です。追加ソフトのレートを再計測し、24で得られたレートと比較すると、次のような表になります。(24レートは変動があるので、レートが安定したところで50~100局程度のレートの平均をとっています。ソフトレートの方も新たにソフトを追加したためレートが全体的に影響を受けています。)

 

    • 前回と同じくこれらをグラフにしてみると次のようになります。

 

 

多少は外れている点もありますが、測定誤差のことも考えるとだいたい直線上に載っていると見て良いでしょう。近似式は前回から多少変更を受けて次のようになりました。

(24レート)=1.58 x(ソフトレート)- 1117

 

この対応関係ですがいくつかコメントがあります。

  • 両者ともイロレーティングで計算されていますが比例係数が1でありません。24レートが近いレートの多数のユーザーの間で対局が行なわれるため、全体的に引き伸ばされていることを意味していると思われる。一方私が測っているソフトレートも近接Rソフトの対局でデータを作っているため例えばFloodgateレートと比べると引き伸ばされ気味で、24レートはそれよりも更に引き伸ばされているのが特徴です。イロレーティングを比較する上でも比例定数が1でないというのは注意すべき点だと思いました。

  • レートの低い方、ソフトR1000以下、24R800以下は24Rの下限が0である影響で勾配は1.41より大きいように見えます。また、R200以下はイロレーティングではないので比べることが難しいです。ちなみにソフトRの下限はマイナスのものもあります。

  • レートの高い方、ソフトR2200, 24R R2600以上では勾配が1に近づいています。このあたりはプレーヤーの密度も少なくなり、同じプレーヤーとの対局も増えるので、レーティングの引き伸ばし効果が少なくなるようです。このあたりは上の近似曲線から勾配1の関係に書き直したほうが良さそうです。また、24はレートがR3100位になると対局相手がいなくなってしまい、レートの変動がなくなります。ソフトレートR3966のJKishi18gouは現在24に参入中ですが、24R4000以上になってもおかしくないのですが、R3100程度のレートにとどまっています。1%程度ですがJKishi18gouに勝つユーザーが居るのも不思議です。ある種の攻略法が知られているのでしょうか。

  • 今回プレーヤー側は一手30秒の早指し、ソフトも即指しだったためプレーヤー側の思考時間がどうしても短くなってしまいます。パソコンでソフトと遊ぶ時は人間側はもう少し時間に余裕を持って指すはずなので、ソフトレートが100程度上のものでも釣り合うのではないか。

%追記 2018/06/10 レートが低い方(Lv2まで)と高い方(Lv2a-Lv3)を分けて直線フィットしたものが下記の図です。ソフトレートが高い側が現実的ではない24レートを返す問題は2つの直線を併用することによりある程度解消されます。式としては次のようになります。切り替え点をソフトレート2000=24レートR1900として

R2000以下: (24レート)=1.78*(ソフトレート)-1381

R2000以上: (24レート)=1.20*(ソフトレート)-255

 

%追記 2018/07/28 折れ線グラフだとちょっと不便だということでフィッティング関数を二次関数にすると割といい感じにフィットします。公式は

(24レート)=-0.0003(ソフトレート)^2 +2.61(ソフトレート)-1948

となりました。グラフは以下のような感じになります。

 レートが上の方でレートの比例係数が小さくなっていることがうまく表現されているように思います。

 

 

以上のことを考慮に入れ、24レートとソフトレートの対応表を作ると、次のようになるかなと思います。対応ソフトは上記のことも考えてソフトレートより少し高めのものを選んでいます。

 この中で24段級位と世間の目安は将棋倶楽部24からの引用です。技巧2,Bonanza 6は思考深度(何手先まで読むか)を有限にするモードが有り、例えば、技巧2D5などは深度を5に設定した技巧2ということです。Yaneuraou XXkNなどはやねうら王に最近の評価関数(Qhapaq, TNKなど)を入れた上で、NodesLimitを1000x XXノードに設定したもの。単にソフト名が書かれている場合は一手5秒4スレッドで動かしたときの強さを想定しています。

この表の見方ですが、例えば、Lesserkai, 金沢将棋レベル300の二桁レベルに勝てるようであれば24の低級タブで普通に対局できる、海底_sdt5に勝てるようであれば低級タブからは卒業できる、という感じでしょうか。1級から10級まではあまり対応ソフトが少ないですが, K-shogi (ぴよ将棋のPC版)は30段階、Spearは10段階で強さを指定できるのでこのあたりの領域は全てカバーされていると思われます。今回私が行ったようにやねうら王(あるいは、浮かむ瀬改)で、弱い評価関数と有限ノードを組み合わせる事もできます。ノード数や思考深度はある程度大きくしないと水平線効果で将棋がおかしくなるので、ノード数を確保しつつ弱くするためには、弱い評価関数の導入は重要だと思われます。24の有段者になったら技巧2やBonanza6の思考有限モードで遊べるようになる感じでしょうか。ちなみに七段や八段は目安としてはプロということになっていますが、プロ上位の人達はもっとレートが高い(24Rで3300~R3400とか)と考えられます。対応するソフトレートはR2900-R3100くらいだと想像しています。 

 

今回の調査を通じて24の級位~低段に対応するソフトが少ないのは注目に値します。自然な棋風でこのレベルにソフトを設定するのはそれなりに難しく、ある意味でソフト作者にとってはチャレンジですし需要もあると思うのですがいかがでしょうか。

 

これで24レートとソフトレートの比較調査は、一応終了と致します。まだ調査期間は10日ほど残っているので、他に、何か調べることがあるのか考えています。一つの案としては直線から外れているレートの高いところと低いところを詳しく調べるということは考えられます。これらについては調査を行った場合は追加レポートという形にまとめるつもりです。

 

最後に繰り返しになりますが、謝辞を述べたいと思います。ソフトと会員の対局を自動化する技術を提供していただいたカツ丼将棋松本氏に感謝いたします。また、ソフトと対局していただいた多数の将棋倶楽部24会員の皆様、ソフトを使わせていただいたやねうら王作者磯崎氏、海底作者の迫田氏、調査のためのソフト参戦を快諾していただいた将棋倶楽部24席主に感謝いたします。皆様のご協力なしには今回の調査は不可能でした。

Please reload

特集記事

以前より、私のツィートや記事にコメントをいただいている、コンピュータ将棋に大変詳しい方(まふさんと名乗られています)が、技巧の定跡の開発を始められました。定跡を作るためのデータとして私がレーティング計測用に作った棋譜ファイルを使っていただいているという縁もあり、新定跡のテストを私が担当することになり...

技巧新定跡(まふ定跡)

December 8, 2016

1/10
Please reload

最新記事

September 30, 2018

Please reload

アーカイブ