88. 報酬の数式

文字数 271文字


 Q[t+1] = (1 - α)Q[t] + αR[t]

 ※t+1における報酬の推定値は、tにおける報酬の推定値と実際の報酬で算出可能
  αは報酬の確信の減率

 教訓。いまに集中しよう。現在地を都度改め、未来に生かそう

 蚯蚓(みみず)が穴掘りを楽しんでいた。翌日、楽しかった。明日も楽しいだろう。

 猫が(ねずみ)狩りを楽しんでいた。翌日、失敗した。明日楽しいか、自信が薄れた。翌日、また失敗した。二度とやるもんか。猫は炬燵(こたつ)で丸くなった。

 三日後、鼠狩りを楽しめる気がした。
 試した。楽しかった。明日も楽しいだろう。

 狼は考えた。科学寓話集の報酬の推定値は……。
ワンクリックで応援できます。
(ログインが必要です)

登場人物紹介

登場人物はありません

ビューワー設定

文字サイズ
  • 特大
背景色
  • 生成り
  • 水色
フォント
  • 明朝
  • ゴシック
組み方向
  • 横組み
  • 縦組み