文献詳細
文献概要
特集 臨床検査のための情報処理技術の進歩 4章 臨床検査情報の収集とデータマイニング 1. 自動分類:clustering
1)クラスタ分析
著者: 荻島創一1 田中博2
所属機関: 1東京医科歯科大学難治疾患研究所生命情報学 2東京医科歯科大学大学院情報医科学センター
ページ範囲:P.1421 - P.1426
文献購入ページに移動クラスタ分析(cluster analysis)とは,「分類対象の集合が与えられたときに,内的結合(internal cohesion)と外的分離(external isolation)が達成されるようなクラスタとよぶ部分集合に,分類対象集合を分割すること」である1,2).平たく言えば,ある集合を,類似した対象(サンプル)が同じ部分集合になるように分類することである.クラスタ分析は,クラスタ解析,クラスタリング(clustering)とも呼ばれる.クラスタ分析は分類例がない教師なし分類であり,一方,分類例のある教師あり分類には決定木,SVM(Support Vector Machine)などがある.
分類するという行為は,人類が古くから行ってきた営みである.医学や生物学は分類の学問であると言っても過言ではない.人間は分類するという行為を通じて,森羅万象を理解しようとしてきた.1950年代になると生物分類学において,分類という行為を,先験的な知識なしに,主観的ではなく,客観的に行うこと(自然分類;natural classification)を主張する数量表形学(numerical phenetics)が登場し,今日のクラスタ分析が確立された.しかし,客観的な分類,すなわち自然分類は実現せず,1970年代半ばから'80年代はじめの生物分類学における分類情報量論争において,数量表形学は敗退したのである3).
すなわち,クラスタ分析は,数理表形学が主張したように,先験的な知識なしに,主観的ではなく,客観的に分類することはできない.しかし,クラスタ分析は,主観的に選んだ属性に基づいて,集合を分類し,これにより集合の情報を圧縮することができるのである.この情報の圧縮は,実は,われわれが日常的に行っていることであり,例えば,名前や住所は分類による情報の圧縮はその最たるものであろう.
クラスタ分析は,主観的な分類するという行為として,本質的には情報を圧縮するという行為として,人類にとって森羅万象を理解するための非常に重要な行為であることには変わりはない.このクラスタ分析には,サンプルの集合の階層的に分類する階層的クラスタ化法と,特定のクラスタ数に分類する非階層的な,分割最適化クラスタ化法の,大別して2種類の方法がある.前者では単連結法,完全連結法,群平均法,ウォード法が,後者ではk-meansクラスタ化法が代表的な方法として知られている.そこで,本稿では,階層的クラスタ化法,分割最適化クラスタ化法,クラスタ分析の意味すること,最適な分類数,次元の呪い,クラスタ分析による疾患分類について解説する.
参考文献
掲載誌情報