大規模言語モデル(large language model;LLM)は,言語にとどまらず,画像,音声,制御など多様な領域を統一的に扱い,推論や思考も扱える能力を示しつつある。人間の脳と比較すると,驚くほどの共通点が見いだせる一方で,根本的に異なる側面も少なくない。本稿では,LLMと人間の脳を対比し,その特徴と今後の展望について考察する。
Ⅰ.大規模言語モデル(LLM)の進展
近年,AI(artificial intelligence)分野ではLLMが飛躍的な進歩を遂げている。従来の言語モデルは,与えられた文脈に続く単語を予測する単純なしくみにとどまり,知能と呼べるものではなかった。しかし,トランスフォーマー(transformer)の導入に加え,学習規模の拡大や手法の工夫により,知能の創発が起こり,驚くほど多様な問題に対応できるようになった。言語処理という極めて複雑な課題を,人間の知識や介入をほとんど必要とせず実現し,言語を自在に操る初めての非人間的存在となっている。
また,LLMは言語を用いて思考し,内省や推論を行うことで,従来は困難とされてきた計画立案や協調,更には外部ツールの活用といったタスクにも対応できるようになっている。
加えて,LLMにとどまらず,画像,音声,制御といった多様な情報をトークン化して統一的に処理する枠組みも実現されつつある。
本稿では,まずLLMの現状を概観し,そのうえで人間の脳との比較を通して,今後の展望を考察する。
Ⅱ.LLMのしくみ
LLMの学習は,大きく事前学習と事後学習の2段階に分けられる。
事前学習では,“文脈から次にくる単語を予測する”というタスクを大量のテキストに対して教師あり学習として実行する。この過程を通じて,LLMは単に次の単語を機械的に出力するだけでなく,その予測に必要な言語理解,知識,推論など,より一般的な能力を獲得する。
LLMに関しては,“スケーリング則”が広く知られている1)。これは,事前学習においてモデルサイズや学習データ量と,次単語予測誤差との間にべき乗則が成立することを示すものである(図1)。更に,ある規模を超えると,様々なタスク(後続タスクと呼ばれる)における性能が急激に向上する“発現”と呼ばれる現象も報告されている2)。これは,LLMが次単語を予測する過程で,副次的に多様な能力を獲得していることを示唆している。
次の事前学習では,人間の指示に従い,能力を高めるための教師あり学習と,思考や推論の能力を獲得させる強化学習を組み合わせて実施される。初期のLLMでは,この事後学習はわずか2-3ステップ程度であったが,現在の最先端モデルでは10近くの複雑なプロセスを経て構築されるようになっている。
特に,LLMに思考の過程(思考軌跡)を生成させ,正しい出力に至った場合に報酬を与える“検証可能報酬付き強化学習(reinforcement learning with verifiable rewards;RLVR)”が大きな成果を挙げている3)(図 2)。この手法は,数学やプログラミングのように解答の正否を自動的に判定できるタスクを利用し,LLMが思考する能力を学習によって獲得する。RLVRによって,数学やプログラミング能力にとどまらず,より一般的な推論力や思考力が獲得される。例えば,自らの途中経過を内省して修正したり,新しい方策を試みたりする能力が形成されつつある。
RLVRを大規模に適用することによって,囲碁や将棋において人間の知識を用いず自己対戦のみで超人的な能力を獲得したAlphaZeroと同様に,現在のLLMも自己学習を通じて人間を超える能力を獲得しつつある。
言語モデルには,一般的にトランスフォーマーと呼ばれるモデルが用いられている。トランスフォーマーは2017年に提案され,自己注意機構と多層パーセプトロン(multi layer perceptron;MLP)を組み合わせることで,文章中の遠く離れた要素間の関係を効率的に捉え,大量の情報を統合的に記憶できるようにしたニューラルネットワークである。急速に発展するAI分野において,この基本的な枠組みは10年近く維持され続けており,学習規模の拡大と共にその重要性があらためて確認されている。
トランスフォーマー以前のモデル(long shortterm memory;LSTMなど)では,スケーリング則は観測されない。一方で,トランスフォーマーとは異なる構造を持つモデル(状態空間モデルやゲート付き線形注意機構)においても,スケーリング則が成立することが報告されている。これらの事実は,モデル間の差異が本質的にはごく小さいことを示唆しており,どの要素が能力発現において決定的な役割を果たしているのか,その理解が急がれている。
Ⅲ. 脳の情報処理とLLMの情報処理の相違点
LLMのモデルや学習手法には,人間の脳が長い進化の過程で築き上げた情報処理機構と共通する点もあれば,対照的に異なる点も多い。共通点のなかには,脳の構造や働きを直接参考にした結果として生まれたものもあれば,知能を実現する過程で結果的に似た形質や機能へと収斂したものもある。このような現象は,いわば知能における“収斂進化”とみなすことができる。
共通点から考察する。LLMの多くの能力は,事前学習における“次の単語を予測する”教師あり学習によって形成される。この予測問題のような正解がデータからタダでいくらでも手に入るような教師あり学習を特に自己教師あり学習と呼ぶ。前述のように,この予測というタスクは膨大な情報を内包し,多様な能力を誘発的に獲得させる契機となる。同様に,人間の脳においても,予測符号化を通じて学習と環境適応が恒常的に行われている。言語処理,視覚や聴覚処理においても,無意識下でも予測に反する事象が起こると驚きを感じることから,脳内では常に予測が行われていることが示唆される。人間がどのように言語を獲得するのかはまだ未解明な部分が多いが,言語の獲得においても予測に基づく学習が重要な役割を果たしている可能性が高いと考えられる。
更に,事後学習における教師あり学習は,人間における模倣学習に相当し,少量のデータであっても効果的な学習を可能にする。また,強化学習も人間や動物の学習過程を参照して設計された枠組みであり,人間も強化学習的な学習を通じて多様な能力を獲得している。この点においても,両者の間には明確な共通性が見いだされる。
モデル構造の観点からみても,トランスフォーマーは神経回路網を模したニューラルネットワークを基盤としている。実際の神経回路網と現在のニューラルネットワークは大きく異なるものの,単純な計算要素を膨大に組み合わせて複雑な計算を実現している点や,情報処理の過程で情報が分解・抽象化されていく点など,多くの共通性が認められる。例えば,ニューラルネットワークの層が進むにつれて表現がより抽象化されることは,脳における情報処理の階層構造と類似している。実際,LLMの内部状態と脳活動との間に対応関係がみられるという報告も存在する。更に,トランスフォーマーの中心的要素である入力に応じて情報を動的に選択する“注意機構”は,人間や動物における注意のしくみを抽象化したものと位置づけられる。加えて,トランスフォーマーの計算処理は,エネルギーベースモデルの一種であるホップフィールドネットワークの近似として解釈することも可能であり,逐次的な推論も可能である4)。
一方で,LLMと人間の脳との間には,根本的な相違も存在する。
第一に,LLMは誤差逆伝播法に基づく勾配降下によって学習を行うが,人間の脳において同様の誤差逆伝播をそのまま実現することは困難であると考えられている5)。とりわけ,誤差逆伝播の過程で必要とされる重み行列の転置や,順伝播と逆伝播の厳密な同期は,生物学的には実装が極めて難しいとされる。更に,人間の神経回路網はノイズが大きく,ニューラルネットワークのように構造化された順伝播・逆伝播の経路を維持することはできず,信号が途中で消失してしまうと考えられる。神経細胞や神経ブロックのレベルでは局所的な更新則が徐々に明らかになりつつあるものの,脳が全体としてどのようなしくみによって学習を実現しているのかについては,依然として複数の仮説が提案される段階にとどまっており,明確な結論には至っていない。
第二に,LLMは自己注意機構とMLPブロックを積層した,統一的かつコヒーレントな構造を持つのに対し,人間の脳は多様な機能領域がそれぞれ異なる役割を担いながら相互に連携し,分散的に情報処理を行っている。進化の過程で古い脳と新しい脳が共存していることもその一因であるが,機能の異なる複数の部位を持つこと自体にも,適応的な利点があると考えられる。
第三に,記憶のしくみにも顕著な差異がみられる。LLMにおける記憶は,モデルのパラメーター,コンテキスト[いわゆるKVキャッシュ(key-value cache)],そして現在の状態の3要素の組み合わせによって構成される。特にKVキャッシュは可変長であり,過去の状態を逐次保持することが可能である。一方で,人間の記憶は固定的なシナプス結合を動的に変化させることで維持され,重要な情報は海馬を介して再固定化され,長期記憶へと移行する。更に,人間の学習は“学習フェーズ”と“推論フェーズ”が明確に分離されず,継続的に学習と推論が行われているのも特徴的である。
次に,能力面における相違について考察する。
現在のLLMは,知識を更新する際に追加の再学習を必要とし,その過程で過去に獲得した知識や技能が失われる“破滅的忘却”を引き起こす可能性がある。すなわち,新たなスキルを学習することによって既存の能力が損なわれるという根本的な課題を抱えている。これに対し,人間の脳には破滅的忘却を回避するしくみが備わっており,生涯を通じて継続的な学習が可能となっている。
また,LLMは少数のサンプルから学習することが苦手である。元々機械学習手法は,十分な性能を得るために数百から数千といった多数の事例を必要としてきた。LLMでは,コンテキスト内に例を与えることで擬似的に学習したかのような振る舞いを示す“インコンテキスト学習(in-context learning)”が知られているが,これはプロトタイプベースの学習に近く,真の意味での汎化能力を備えているわけではない。一方で,人間はごく少数の事例から一般化可能な知識を形成できる。今後,試行回数を十分に確保できないタスクにおいては,少サンプルからの学習能力が極めて重要になると考えられる。
更に,エネルギー効率の面でも顕著な差異が存在する。人間の脳はおよそ20Wという極めて低い消費電力で,学習と情報処理を同時に実行している。これに対し,現行のAIは学習において100MWを超える大規模データセンターと数か月に及ぶ計算を必要とし,推論(利用)時にも数百Wを消費する。
このようなエネルギー効率の差には幾つかの要因があるが,その主な原因は,現在の計算機が微細化と高周波数(1-10GHz)動作に依存し,多大な冗長性を抱えている点にある。将来的には,桁違いに低い周波数で動作する超並列計算に基づく新たなアーキテクチャーの実現や,新しい計算プロセスおよびメモリ機構の導入によって,電力効率が飛躍的に向上する可能性がある。
おわりに
本稿では,LLMのしくみと人間の脳の情報処理機構を比較し,その共通点と相違点を整理した。両者には驚くほどの共通性がみられる一方で,明確な相違も存在する。今後,LLMは脳のしくみを参照しつつ発展を遂げると同時に,人間以外で初めて知能を実現した存在として,脳の情報処理機構の解明に資する可能性も有すると考えられる。