８８．　報酬の数式

文字数 271文字

　Q[t+1] = (1 - α)Q[t] + αR[t]

　※t+1における報酬の推定値は、tにおける報酬の推定値と実際の報酬で算出可能
　　αは報酬の確信の減率

　教訓。いまに集中しよう。現在地を都度改め、未来に生かそう

　蚯蚓(みみず)が穴掘りを楽しんでいた。翌日、楽しかった。明日も楽しいだろう。

　猫が鼠(ねずみ)狩りを楽しんでいた。翌日、失敗した。明日楽しいか、自信が薄れた。翌日、また失敗した。二度とやるもんか。猫は炬燵(こたつ)で丸くなった。

　三日後、鼠狩りを楽しめる気がした。
　試した。楽しかった。明日も楽しいだろう。

　狼は考えた。科学寓話集の報酬の推定値は……。

ワンクリックで応援できます。
(ログインが必要です）