文献詳細
特集 大脳基底核―分子基盤から臨床まで
文献概要
はじめに
われわれが生活する中で,ある行動をすることで報酬を得ることができた場合,次の機会にもその行動を選択する可能性が高くなる。また,初めての環境においては,最初は試行錯誤的に行動し,次第に最も報酬が得られる可能性の高い行動を選ぶようになる。このような,選択した行動に対して報酬が得られることで後続の行動の選択頻度が高くなる現象は,最初にThorndikeによって「効果の法則」と呼ばれ1),これまでオペラント条件付けとして多くの研究がなされてきた。
実際の日常生活においては,報酬が出てくるまでの時間はいつも行動の直後であるとは限らず,行動と報酬との間隔が離れている状況も多い。そのような場合,報酬量と報酬が出てくるまでの時間との兼ね合いによって,意志決定を行う必要が出てくる。例えば,ダイエットや禁煙などは,痩せることや健康などの報酬が出てくるまでの時間が長い行動であるが,甘いものを食べることや喫煙などは,報酬が出てくるまでの時間が短い行動となる。短期的報酬と長期的報酬のどちらを選択するかは,時間的なコストと報酬量の評価など,各意志決定に関わる個人の内潜的変数について考慮しなくてはならない。また,これらの高次の意志決定に関わる脳機能の検討を行う場合,物理刺激の量と脳の活動との間に対応関係がみられるような知覚研究とは異なり,意志決定に関わる神経活動について検討を行う際,呈示された刺激(条件刺激や報酬)に対する脳活動を測定して,それが本当に意志決定に関わる脳活動であるのかは定かではない2)。刺激と反応から各試行における反応を説明するような内潜変数も含めた数理モデルを構成し,それと脳活動との関連を検討することで,より特定の脳部位に焦点を当てた形で,意志決定に関わる脳機能の検討を行うことが可能である2,3)。
現在,意志決定に関わる数理モデルとしては,対応法則4)が影響力のある理論であるといえる。対応法則は複数試行かつ複数選択肢の状況で,ある行動を選ぶ割合は,その行動によって得た報酬の割合に等しくなるというものである。しかし,対応法則は,学習が収束した定常状態における平均的傾向について述べており,試行ごとの選択行動について述べるものではない5)。一方,近年機械学習の分野において,強化学習6)が独自に発展してきており,数理モデルによるアプローチから,行動選択の各試行における内潜的な変数について推定を行い,学習過程においてどのようなメカニズムが働いているのか検討することを可能にしている。これらの検討により,近年,線条体が強化学習機能において重要な役割を果たしていることが示されてきている7)。
本稿では,まず,強化学習について紹介し,次に強化学習におけるメタパラメータと神経修飾物質との関連についてのDoya仮説8)を紹介する。そして,Doya仮説に基づいて,筆者らの研究グループにおいて行ってきた,報酬予測における割引率(γ)と線条体・セロトニンとの関連を検討した実験について紹介する。
われわれが生活する中で,ある行動をすることで報酬を得ることができた場合,次の機会にもその行動を選択する可能性が高くなる。また,初めての環境においては,最初は試行錯誤的に行動し,次第に最も報酬が得られる可能性の高い行動を選ぶようになる。このような,選択した行動に対して報酬が得られることで後続の行動の選択頻度が高くなる現象は,最初にThorndikeによって「効果の法則」と呼ばれ1),これまでオペラント条件付けとして多くの研究がなされてきた。
実際の日常生活においては,報酬が出てくるまでの時間はいつも行動の直後であるとは限らず,行動と報酬との間隔が離れている状況も多い。そのような場合,報酬量と報酬が出てくるまでの時間との兼ね合いによって,意志決定を行う必要が出てくる。例えば,ダイエットや禁煙などは,痩せることや健康などの報酬が出てくるまでの時間が長い行動であるが,甘いものを食べることや喫煙などは,報酬が出てくるまでの時間が短い行動となる。短期的報酬と長期的報酬のどちらを選択するかは,時間的なコストと報酬量の評価など,各意志決定に関わる個人の内潜的変数について考慮しなくてはならない。また,これらの高次の意志決定に関わる脳機能の検討を行う場合,物理刺激の量と脳の活動との間に対応関係がみられるような知覚研究とは異なり,意志決定に関わる神経活動について検討を行う際,呈示された刺激(条件刺激や報酬)に対する脳活動を測定して,それが本当に意志決定に関わる脳活動であるのかは定かではない2)。刺激と反応から各試行における反応を説明するような内潜変数も含めた数理モデルを構成し,それと脳活動との関連を検討することで,より特定の脳部位に焦点を当てた形で,意志決定に関わる脳機能の検討を行うことが可能である2,3)。
現在,意志決定に関わる数理モデルとしては,対応法則4)が影響力のある理論であるといえる。対応法則は複数試行かつ複数選択肢の状況で,ある行動を選ぶ割合は,その行動によって得た報酬の割合に等しくなるというものである。しかし,対応法則は,学習が収束した定常状態における平均的傾向について述べており,試行ごとの選択行動について述べるものではない5)。一方,近年機械学習の分野において,強化学習6)が独自に発展してきており,数理モデルによるアプローチから,行動選択の各試行における内潜的な変数について推定を行い,学習過程においてどのようなメカニズムが働いているのか検討することを可能にしている。これらの検討により,近年,線条体が強化学習機能において重要な役割を果たしていることが示されてきている7)。
本稿では,まず,強化学習について紹介し,次に強化学習におけるメタパラメータと神経修飾物質との関連についてのDoya仮説8)を紹介する。そして,Doya仮説に基づいて,筆者らの研究グループにおいて行ってきた,報酬予測における割引率(γ)と線条体・セロトニンとの関連を検討した実験について紹介する。
参考文献
1) Thorndike EL: Animal intelligence: An experimental study of the associative processes in animals. Psychol Monogr 2: 1-109, 1898
2) Corrado G, Doya K: Understanding neural coding through the model-based analysis of decision making. J Neurosci 27: 8178-8180, 2007
3) O'Doherty JP, Hampton A, Kim H: Model-based fMRI and its application to reward learning and decision making. Ann N Y Acad Sci 1104: 35-53, 2007
4) Herrnstein RJ: Relative and absolute strength of response as a function of frequency of reinforcement. J Exp Anal Behav 4: 267-272, 1961
5) 伊藤 真, 銅谷賢治: 意志決定と行動学習の数理モデル. Brain Nerve 60: 791-798, 2008
6) Sutton RS, Barto AG: Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998
7) Doya K: Modulators of decision making. Nat Neurosci 11: 410-416, 2008
8) Doya K: Metalearning and neuromodulation. Neural Netw 15: 495-506, 2002
9) Doya K: Metalearning, neuromodulation, and emotion. In: Affective Minds, Hatano G, Okada N, Tanabe H (eds), Elsevier, New York, 2000, pp 101-104
10) Schultz W, Dayan P, Montague PR: A neural substrate of prediction and reward. Science 275: 1593-1599, 1997
11) Schultz W: Predictive reward signal of dopamine neurons. J Neurophysiol 80: 1-27, 1998
12) Samejima K, Ueda Y, Doya K, Kimura M: Representation of action-specific reward values in the striatum. Science 310: 1337-1340, 2005
13) Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, et al: Prediction of immediate and future rewards differentially recruits cortico-basal ganglia loops. Nat Neurosci 7: 887-893, 2004
14) Tanaka SC, Schweighofer N, Asahi S, Shishida K, Okamoto Y, et al: Serotonin differentially regulates short- and long-term prediction of rewards in the ventral and dorsal striatum. PLoS ONE 2: e1333, 2007
15) Schweighofer N, Bertin M, Shishida K, Okamoto Y, Tanaka SC, et al: Low-serotonin levels increase delayed reward discounting in humans. J Neurosci 28: 4528-4532, 2008
16) Bhagwagar Z, Murthy N, Selvaraj S, Hinz R, Taylor M, et al: 5-HTT binding in recovered depressed patients and healthy volunteers: a positron emission tomography study with [11C] DASB. Am J Psychiatry 164: 1858-1865, 2007
17) Meyer JH, Houle S, Sagrati S, Carella A, Hussey DF, et al: Brain serotonin transporter binding potential measured with carbon 11-labeled DASB positron emission tomography: effects of major depressive episodes and severity of dysfunctional attitudes. Arch Gen Psychiatry 61: 1271-1279, 2004
18) 志々田一宏, 岡本泰昌: うつ病における基底核の役割. 分子精神医学8: 37-42, 2008
掲載誌情報