連休は終わったけどUnity(ML-Agents)で遊ぼう（５日目）

ジブリの新作のレイトショーを見に行ってきました。かえるのクーの助手の「井戸中　聖」（いとなか　セイ）でございます。

地球儀 IRON STAND BEIGE｜【公式】ACTUS online｜家具・インテリア・雑貨の通販

おもしろかった！とだけ申し上げます。感想をいえばどうしてもネタバレになるので、控えます。賛否の差が大きいのも納得できたことだけは言っておきます。

さて、余韻にひたる中、日付も変わってしまい、いよいよ５日目になって（遊ぼうシリーズの）終わりどころを見失ってしまっております。

では、さっそく、昨日学習したニューラルネットワーク（電源落ちたので正確には分かりませんが、１４～１５時間は学習したはず）で、宿敵Release20オリジナルに挑んでみましょう。

結果：学習が完全に崩れてしまいました

自チームとほぼお見合い状態で延々と至近パスを繰り返すだけの状態になってしまいました。パスを重視する報酬設定にしたので、すべてのこと（ゴールを目指す含む）よりもパスをし続けることを至高とするに至っておりました。

ゲームは見るに堪えません。

学習方針を見直します！お見合い禁止！！

１２時間学習済のまともなベースから再トレーニングします。（こんなとき、派生継続機能は便利です）

う～ん。学習しはじめは、うまく評価できているように見えるのですけどねぇ。

なかなか思ったように学習をコントロールできないのが痛いところです。

そもそも学習の報酬が学習状況によって可変になっていないのがまずい気がしてきました。でも報酬自体をコントロールするのは、強化学習といえるのかなぁ。意図に反する報酬の効果がではじめたら抑制するのでよいと思いますが、その検出は（途中結果などではなく、プロセス評価なので）とても難しい気がします。

迷宮案件化しつつもある本件「ML-Agentsで遊ぶ」は、今年の「夏休み自由研究」の課題とあいなりました。（このままではこのシリーズを終われる気配がなくなっているので、一旦仕切り直しです。プチ逃亡とも言います。）

果たして、かなり学習がよくできているRelease20付属のニューラルネットを打ち負かすことは可能なのでしょうか？はたまた、頂点を極めるのは、どんな強化学習をしたチームなのでしょうか。

乞うご期待！

クーの自由研究