ピックアップ

生体の科学 77巻1号 (2026年2月発行)
特集
脳とAI—脳科学と人工知能研究の未来
Transformer型脳モデルの展開
閲覧可
ビューアーで読む
平 理一郎 1
1東京科学大学大学院医歯学総合研究科細胞生理学分野
キーワード: Transformer , AI , 全脳モデリング , 大規模計測 , 2光子カルシウムイメージング
pp.31-35 , 発行年月 2026年2月

 Transformer1, 2)は,言語,画像,音声をはじめとする多様なデータで卓越した表現学習と生成能力を示し,実験・計算論的神経科学や脳神経系を対象とする臨床医学にも急速に浸透しつつある3)。本稿はtransformerを脳のモデルとしてみる新しい潮流について議論していく。

Ⅰ.Transformer対RNN

 自然言語処理においてRNN(recurrent neuralnetwork)からtransformerへの移行は画期的であったが,脳のモデルとしての利用におけるこの移行はここに至るまで穏やかで限定的である。というのも,RNNはニューロン集団から成る局所回路や領域構造と直観的に対応しやすいのに対し4),transformerはそのような直観的な対応が難しく,脳の計算様式と結びつけにくいからである。とりわけtransformerの中核にあるアテンションは大規模な並列計算やベクトル同士の内積を前提としており,基本的に加算を主体とする神経細胞の計算とは距離がある。そのため,構造的にも計算的にも“脳らしさ”が乏しく,RNNのように自然に脳回路と対応づけることが難しい。しかし,この不一致にもかかわらず,今後のデータが爆発する脳科学でtransformerの利用は避けることができない。その理由は,大規模データに対する性能がRNNなどと比べて著しく高いからである5)。ではtransformerにはどのような役割があるだろうか。

Ⅱ.Transformerの2つの役割

 脳科学におけるtransformerの役割は,計測データの解析をサポートする道具としての利用と,脳のモデルとしての利用に大別することができる。道具としての利用では,vision transformerや時系列transformer,graph transformer6)を用い,fMRI,EEG/MEG,スパイクデータ,カルシウムイメージングデータなどの分類,予測,検出,セグメンテーション,回帰を高性能化する研究がある7-12)。脳神経疾患の予後,TMS(transcranial magnetic stimulation)や薬剤治療後の経過の予測や,画像,脳活動,臨床テキストを統合する臨床応用などの利用も視野に入っている。一方,モデルとしてのtransformerの利用は,脳科学に固有のものである。例えば,next-step予測やマスク予測により,大量の脳活動データから潜在表現を抽出し,これに外界からのマルチモーダルな入力も入れた汎用性のあるtransformer型脳モデル(基盤モデル)の構想がある。これは,入出力が脳のそれを近似するという意味で脳のモデルとして機能することになる。そうしたtransformerモデル内部のアテンションがどのように神経回路で実装可能かについての議論も可能である13)。本稿では道具としての利用を含めて事例を集めながら,脳の計算原理を明らかにするためのモデルとしての利用を目指す方向性について議論を進める。特に,単一ニューロン解像度を持つ全脳スケールのtransformerへの展開を念頭に置いた議論となる。

Ⅲ.Transformer型脳モデル

 本節では,これまでtransformer型の脳モデルとして報告されている主なモデルであるNDT,STNDT,NDT2,POYO,QuantFormer,Neuroformerを取り上げ,これを比較・分析していく(表)。

表 6つのモデルの特徴のまとめ(本文参照)

 ① NDT(neural data transformer)8)はLFADS(latent factor analysis via dynamical systems)14)の発展として提案された初期のtransformer型モデルで,サルM1のスパイクデータを用いて各時刻の全ニューロン活動をトークン化し,時間方向の自己注意で集団ダイナミクスを学習する。マスク予測により発火率やPSTH(peri-stimulus timehistogram)を高精度に再構成し,LFADSと同等の性能を示した。モデル規模とデータ量の依存性が大きく,大規模データではtransformerが優位となる一方,小規模条件ではRNN系が優勢であることから,モデルサイズの選択が重要である。
 ② STNDT(spatiotemporal neural data transformer)9)はNDTを時間注意+空間注意で拡張し,ニューロン間の相互関係と時間構造を同時に扱う。加えて対照学習を導入し,試行間揺らぎを抑えて刺激応答の一貫性を潜在空間に抽出する。NLBデータセットでNDTを上回るPSTH推定性能を示し,空間注意の解析から,モデルがハブとなるニューロングループを利用していることが明らかになった。注意重みを用いた破壊実験により,機能的アッセンブリーの可視化が可能である点が特徴である。
 ③ NDT2(neural data transformer 2)7)は課題,セッション,被験者を超えた汎用的モデル化を目的とし,メタデータを文脈埋め込みとして利用する。NDT2は約10ニューロンから成るパッチをトークンとすることによって,ニューロンのidentityを前提としない構造を採用した。これは被験者間でニューロン対応をとれないBCI(brain-computer interface)実装を想定した設計であり,転移性の向上を主眼としている。
 ④ POYO(pre-training on many neurons)10)は1スパイク=1トークンという全く異なるスキームを採用し,ニューロンIDとタイムスタンプを直接入力とする。5ms単位の時間表現とクロスアテンションを用い,行動(腕速度)を予測する潜在表現を学習する。7研究機関の大規模スパイクデータを統合した事前学習により,課題・個体を超えた汎用性を獲得した。新規ニューロンに対して埋め込みを追加するだけの改変で利用できるのは,BCIにとって極めて大きな利点である。
 ⑤ QuantFormer12)は2光子カルシウムイメージングデータに対し,ノイジーな蛍光シグナルを量子化して分類問題として扱う点が特徴である。ニューロントークンを導入し,ニューロン数が変化してもモデル構造を変更せずに適用できる。大規模視覚野データセットに対して,条件や個体が異なっても一貫した近未来予測が可能で,個体差を超えた表現獲得が示された。
 ⑥ Neuroformer11)は2光子データをスパイク化して1スパイク1トークンとして扱い,更に刺激動画,報酬,行動など複数モダリティを同一潜在空間に統合する。シミュレーションでは自己注意重みからハブ結合を推定でき,実データでは動画刺激から神経応答を生成するなど多様なタスクに対応した。再構成された注意マップを用いた受容野推定や,教師なしでの行動デコードが可能であり,マルチモーダル・マルチタスク型のモデルとして位置づけられる。

Ⅳ.6つのモデルの特徴

 本節では,これら6つのモデルの特徴を整理する。

1. 時間トークン,ニューロントークン,パッチトークン

 NDTやSTNDTに代表される方式であり,ある時刻に記録された全ニューロンの活動ベクトルを1つのトークンとして扱う。時間方向の自己注意(STNDTでは空間注意も併用)によって,ニューロン間の相関構造を学習する。この方法は,集団レベルの低次元多様体構造を重視する場合に適している一方,記録ニューロン数を固定する必要があり,スケールさせにくいという制約がある。ニューロントークンは,POYOやNeuroformerの採用する方式で,1スパイク(ニューロンIDとタイムスタンプ)を1トークンとする。QuantFormerもカルシウム蛍光シグナルを量子化し,ニューロン単位の離散表現として扱う点でこの系統に含められる。ニューロントークンは新しいニューロンが追加されても埋め込みを足すだけで対応できるため,課題,セッション,個体を跨ぐ大規模モデルに適しており,特にBCI分野では決定的な利点となる。NDT2に典型的で,10個前後のニューロンを小さなパッチとしてまとめ1トークン化する方法である。パッチ化はニューロン単位の情報を犠牲にする一方,identityに依存しない表現を安定的に学習できる。

2.計算コスト,入出力,スケーリング

 これらのトークン化方式は計算コストに大きく影響する。自己注意のコストはトークン数の2乗で増えるため,時間トークンではトークン数=時間ステップ,ニューロントークンでは=スパイク数となる。電気生理データのようにスパイク密度が高い場合,ニューロントークンは急激に重くなる一方,2光子のように時間分解能が低く広域記録を扱う場合は時間トークンが有利となる。また,ニューロントークンは新規ニューロンを追加しやすくスケールに強いが,時間トークンは記録ニューロン数を固定しなければならない。パッチ化はその中間に位置し,identity非依存性と転移性を優先する設計である。解釈性は,集団ダイナミクスを重視するなら時間トークン,個々の発火の寄与を追うならニューロントークンが適する。入出力の観点では,NDT,STNDT,NDT2,QuantFormer,Neuroformerはいずれも近未来予測やマスク予測を用いる。POYOだけは行動(腕速度)のデコードに直接最適化されている。近年のLLM(large language model)と同様,画像,行動,報酬などのマルチモーダル情報を統合するモデルが増えており,NDT2,POYO,Quant-Former,Neuroformerではクロスアテンションや対照学習が用いられている。
 一方,コネクトームや細胞タイプなどの構造情報はまだ十分に活用されていない。スケーリングに関しては,NDT1では小規模データではRNN系(LFADS)が優勢である一方,試行数が増えるとtransformerの利得が現れる。計算の並列性により推論時間が短く,BCIでは特に有利となる。また,POYOではデータ規模やモデル規模を拡大するほど性能が向上し,100セッション規模でも頭打ちがみられない。

Ⅴ.内部構造探索

 冒頭でも述べたとおり,transformerを脳のモデルとして成立させるには,外側からの性能評価だけでなく,内部でどのような計算・表現が形成されているかを明らかにする必要がある。現在最もよく用いられる内部構造探索は介入実験であり,STNDTでは空間アテンションから重要と推定されたニューロン群を除去すると予測性能が大きく低下し,モデル内部にハブとして機能する要素が存在することが示された。同様のアブレーションはNDT,QuantFormer,Neuroformerでも利用され,transformer内部の機能分化を検証する基本手法となっている。アテンション解析も重要である。STNDTでは空間アテンションにより機能的アッセンブリーが抽出され,Neuroformerではクロスアテンションを通じて,刺激画像のどの位置がどのニューロンに対応しているかを推定でき,受容野の可視化が可能であることが示された。また,シミュレーションデータに対して,自己注意のパターンからシナプス結合を推定することにも成功している。ただし,transformerが本来得意とする長時間依存性の検出が神経活動データに対して明瞭に示された例はまだなく,この点は将来的な課題である。

Ⅵ.今後の展開

 前節までの議論を踏まえて,こうしたモデルの今後の展開について考えてみよう。まず,即座に可能なのが,transformerへのコネクトーム情報の統合である。利用法は2つあり,1つは学習済みモデルのアテンションやトークン間距離に,コネクトームと対応した構造が出現しているかを確かめる検証型,もう1つはコネクトームを事前に組み込み,アテンションへバイアスを与えたり,ラプラシアン固有ベクトルを位置エンコーディングとして加えることで性能向上を狙う改善型である。後者はfMRI分野で既に用いられている。
 モデル内部で見つかった構造が脳実験で再現可能かを問う方向も重要になる。例えばSTNDTが抽出したハブ候補ニューロンが,実際に2光子刺激によってネットワークの要として働くかを検証すれば,モデルと脳の因果的整合性を評価できる。また,時間方向のアテンション解析を進めることによって,LLMのinduction headと海馬のリプレイにみられる“部分からのパターン補完”という共通計算原理を探ることもできる。

おわりに

 本稿ではtransformerと脳をめぐる多彩な論点について議論してきた。この強力なモデルの可能性は,あらゆる神経活動を予測する汎用的な基盤モデルとその精神疾患への貢献を含めて広大である。基礎神経科学においてはヒトのfMRIで先行するモデルを一段深めた単一ニューロン解像度のtransformerを全脳レベルに押し上げる努力が必要であり,その1つの課題としてコネクトーム情報との統合の方向性を提示した。実際筆者らは,脳型transformerの構築に向けて広視野2光子カルシウムイメージングを用いた時間と身体・環境に関する高品質な大規模脳活動・行動データを蓄積してきており(図)15-18),筆者ら以外にも今後そうした実験による大規模データの共有は進んでいくだろう。そのようなデータ規模の爆発に対してスケーリング則がどこまで成立するのか,多個体・多セッションデータの統合や領域単位以上の共通フォーマットの可否が1つの試金石となる。また,脳型transformerモデルの先には全脳リアリスティックスパイキングネットワークによる脳の完全なモデリングへの道がある19)。それは技術的な課題を超えて,より本質的な問題圏へと接続する道であると思われる。

図 多個体から取得した多細胞活動データと姿勢データのtransformerへの統合

謝辞 乾健太郎氏, 五十嵐潤氏,Zhun Sun氏,Benjamin Heinzerling氏,上岡雄太郎氏をはじめ,Neuro-LLM研究チームのメンバーとの有意義な議論に感謝します。本研究はAMED(JP25wm0625405)とJST(JPMJFR231X)からのサポートを受けており,ここに感謝の意を表します。

+
-
メニュー