AlphaGo学習モデルについての資料

AlphaGoの学習モデルを良く説明しているSlideです。

 

www.slideshare.net

 

 

オープンアクセスのハサビスの論文はこちら

Mastering the game of Go with deep neural networks and tree search (PDF Download Available)

 

この論文は要約してアップしたいところですね

 

Githubで構築中というAlphaGoのレプリカ

github.com

 

やはりPolicyネットワークと自己対局による強化学習による有望手の絞り込みが

このブレイクスルーの本質ではないでしょうか?

強化学習と学習データ量の関係性を上手く調整する事で囲碁だけでなく個別の事例に対応出来る学習システムが構築出来るのではないでしょうか

 

※強化学習は学習コストを増加させるが学習用データセットはその分少なくてもパフォーマンス減少には寄与しないかも知れない、逆のパターンもありえるのでインフラリソースが乏しかったり、学習用データが乏しくても色々な環境にカスタマイズ出来るのでは