素人による評価関数自作記---ゼロから自分好みの評価関数を育成

リゼロ関連でやねうら王開発者磯崎氏(以下やね氏と略)が従来方法でもゼロから出発して評価関数を強くできるという記事を書かれました。この記事によると私が使っているような普通のPC(4c8t)でも評価関数の学習はできるらしく、しかも記事の検証用に評価関数の作成手順が書かれていました。この手順、素人の私でも実行可能で評価関数を数時間で自作することができました。 個人的にはゼロから出発して究極まで強くしたときにどんな将棋を指すかということにも興味があるのですが、別の方向性としてゼロから出発して自分好みの将棋を指す評価関数を鍛えられたら面白いかと発想し実験してみることにしました。アイディアとしては定跡ファイルとして自分が育てたいと思う棋譜から作ったものを与え、それを用いて自己学習させたらどうかと考えました。 まずは評価関数生成 手順は上記の記事の通りですが、一部試行錯誤した部分もあるので全部書いておくと、 (1)まず全く内容がない評価関数(ゼロ評価関数)をやねうら王githubからダウンロード (2)やねうら王本体を同様にダウンロード (3)evalフォルダにゼロ評価関数を入れ、bookフォルダに自分が方向づけたい定跡ファイルを置く(今回はやねうら王の標準定跡standard_book.dbを用いた)以上は通常のやねうら王のセットアップと同じ。 (4)やねうら王本体をダブルクリックして起動。DOS窓と呼ばれる黒い窓がでるのでそこで設定する。定跡を標準的なもの以外を使う場合はその窓の中で次のコマンドを入力: BookFile book.bin (まふ定跡などAperyの定跡を使うとき) Bo

リゼロ観察

やねうら王作者磯崎さんが最近人の棋譜を使わず全く駒の損得だけから機械学習した評価関数を発表されています。通常、将棋を勉強し始めるときに駒の動かし方の次に習うのがいろいろな戦型とか囲い、定跡などだと思うのですがなんにも知らないAIが自己対局で自由に学習していったときにどのような将棋を指すのかという点でとても興味深いプロジェクトになっています。学習を1ステップ行ったものをepoch 1, 2ステップしたものをepoch2などと呼び、現時点(2017年6月16日)ではepoch 7までが開発されています。詳細については磯崎氏のHPを参照してください(以下、[やね]と参照する)。棋譜はこちらからダウンロードできます。人間の棋譜を使わずに自己学習したソフトがどのような対局をするのかは見る人が見れば面白いと思いますのでご参考にしてください。レーティングについては対局数が少ないのであくまでも目安程度に取っておいてください。対局は1手5秒4スレ i7-6700で行っています。リゼロ側の定跡はすべてoffです。 リゼロepoch0 (vs Bonanza 1.2 R2129) 勝敗 YaneuraOu-ReZero0 127 Bonanza Version 1.2 126 レート差 1 千日手 1 持将棋 3 平均手数 141 対局数 257 Ratingの目安はR2130 この対局だけ一手一秒4スレで対局を取った。 [やね]での目安はfloodgate換算でR1800。 リゼロepoch 1 (vs GPSfish R2889) 勝敗 YaneuraOu461t e1 60 GPSfis

特集記事
最新記事
アーカイブ
タグから検索
まだタグはありません。
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square