特集“予測と意思決定の神経科学”に寄せて | 生体の科学64巻4号

特集予測と意思決定の神経科学

特集“予測と意思決定の神経科学”に寄せて

著者：岡本仁¹

所属機関： ¹理化学研究所脳科学総合研究センター発生遺伝子制御研究チーム

ページ範囲：P.294 - P.296

文献購入ページに移動

文献概要

　われわれは日々の生活で，様々な行動の選択に関する意思決定を常に行いながら生きている。ほとんどの場合，人間を含むすべての動物は，自らの生存に最適な環境を得られると予測できる行動を選択する。この場合，より良い食物や住み心地の良い環境など，個体の生存に取って好ましいもの（報酬）が得られる可能性を最大にしようとする場合もあれば，生存を脅かす天敵の攻撃の可能性や餌が乏しい環境など，個体の生存を脅かすもの（罰）を最小限に食い止めようとする場合もあるだろう。動物は成功と失敗の経験を繰り返すうちに，最適の行動を選択することができるようになる。

　機械やコンピューターに，このような行動様式を実現させるための学習制御の理論に，Actor-Critic（ここでは，動作者―評価者と仮に訳す）型強化学習理論がある。この理論では行動の制御は評価者（critic）と動作者（actor）の二者によって行われているとする。評価者は“動作者が特定の行動を選択するときに，その時点で将来にわたって得られると期待される報酬の大きさ”を予測し，“行動を選択した結果，実際に得られた報酬の大きさ”との差（予測誤差）を，行動を行うたびに計算する。その結果，評価者は予測誤差に比例して将来への報酬の期待値を修正すると同時に動作者にもこの値を伝えて，動作者は，この値に比例して行動を選択する確率を変化させる。Actor-Critic型強化学習理論は，このようにして期待値と行動の選択確率の修正を行っていけば，最終的には評価者は将来の報酬を正確に予測できるようになり，なおかつ動作者は報酬が最大となる行動を選択できるようになることを教えてくれている。このような理論は，ある時点で予測される将来の報酬の期待値の総和と，次の時点での実際に得られた報酬と将来の報酬の期待値の総和の差（temporal difference；TD）が，理論の中心となるためTemporal Difference Theoryとも呼ばれる^1）。

参考文献

“Models of information processing in the basal ganglia”. Houk JC, Davis JL, Beiser DG, eds. The MIT press, Cambridge, pp215-232, 1995

36：241-263, 2002

“Neuroeconomics, decision making and the brain”, Gilmcher PW, Camerer CF, Fehr E, Poladrack RA, eds, Academic Press, pp209-213, 2009

掲載誌情報

出版社：株式会社医学書院

電子版ISSN：1883-5503

印刷版ISSN：0370-9531

雑誌購入ページに移動

文献詳細