マルコフ決定過程ってなんなのさ

脳が震える～。かえるのクーの助手の「井戸中　聖」（いとなか　あきら）....デス。

アナタ、怠惰デスね？！

f:id:AssistantOfKoo:20210104010806p:plain

さて、強化学習はマルコフ決定過程（Markov decision process）を「環境」とみなし、「行動」により環境へと影響し、それに対して「報酬」を得るモデルです。

前のページのA、B選択による報酬の違いはマルコフ決定過程といえます。

Aライン、Ｂライン、Ｓラインからのバスケットボールシュートは、マルコフ決定過程とはいえません。（強化学習に適しません）

自分でもよくわからないので、諸先輩方！説明をよろしくお願いします。

どうもありがとうございました。

やはり難しいですね。（HELLO CYBERNETIC様の説明はどの書籍よりわかりやすかったです。が、まだ腑に落ちていません。）

環境が複雑になると、級数的に選択が難しくなります。

(例)AかBかを選択して部屋に入るゲームがあります。Aを選んだ場合報酬として毎日100円もらえます。
Bを選んだ場合、報酬として月末に10,000円もらえます。
あなたはゲームの参加者です。あなたの所持金はゼロ円です。
100円あれば、その日を生きながらえるための水と塩と少しの砂糖が手に入ります。

何も手元にない状態で、何日間生きられるかわかりません。

あなたはAの部屋にはいりますか？それともBの部屋ですか？

１００を超える次元の環境で、各局面毎に１００を超える選択肢（またはパラメータ）があり、報酬が決定するのが100「行動」した後のような場合に、例えばその環境の評価関数はどのようにすれば現実的に求められるのか全くイメージがわきません。。。

辻井伸行さんのピアノコンサートが２月にあります。どうしても行きたいのですが、環境が変動しており、どのように行動すればよいか（行くか、行かないか）迷っています。

娘が受験シーズンなので、「リスクのある行動は極力控えよ」的な家庭内同調圧力が半端ないです。

クーの自由研究