1）クラスタ分析 | 臨床検査49巻12号 | 医学書院

文献概要

特集臨床検査のための情報処理技術の進歩 4章　臨床検査情報の収集とデータマイニング 1. 自動分類：clustering

1）クラスタ分析

著者：荻島創一¹ 田中博²

所属機関： ¹東京医科歯科大学難治疾患研究所生命情報学 ²東京医科歯科大学大学院情報医科学センター

ページ範囲：P.1421 - P.1426

文献購入ページに移動

はじめに

　クラスタ分析(cluster analysis)とは，「分類対象の集合が与えられたときに，内的結合(internal cohesion)と外的分離(external isolation)が達成されるようなクラスタとよぶ部分集合に，分類対象集合を分割すること」である^1,2)．平たく言えば，ある集合を，類似した対象(サンプル)が同じ部分集合になるように分類することである．クラスタ分析は，クラスタ解析，クラスタリング(clustering)とも呼ばれる．クラスタ分析は分類例がない教師なし分類であり，一方，分類例のある教師あり分類には決定木，SVM(Support Vector Machine)などがある．

　分類するという行為は，人類が古くから行ってきた営みである．医学や生物学は分類の学問であると言っても過言ではない．人間は分類するという行為を通じて，森羅万象を理解しようとしてきた．1950年代になると生物分類学において，分類という行為を，先験的な知識なしに，主観的ではなく，客観的に行うこと(自然分類；natural classification)を主張する数量表形学(numerical phenetics)が登場し，今日のクラスタ分析が確立された．しかし，客観的な分類，すなわち自然分類は実現せず，1970年代半ばから'80年代はじめの生物分類学における分類情報量論争において，数量表形学は敗退したのである³⁾．

　すなわち，クラスタ分析は，数理表形学が主張したように，先験的な知識なしに，主観的ではなく，客観的に分類することはできない．しかし，クラスタ分析は，主観的に選んだ属性に基づいて，集合を分類し，これにより集合の情報を圧縮することができるのである．この情報の圧縮は，実は，われわれが日常的に行っていることであり，例えば，名前や住所は分類による情報の圧縮はその最たるものであろう．

　クラスタ分析は，主観的な分類するという行為として，本質的には情報を圧縮するという行為として，人類にとって森羅万象を理解するための非常に重要な行為であることには変わりはない．このクラスタ分析には，サンプルの集合の階層的に分類する階層的クラスタ化法と，特定のクラスタ数に分類する非階層的な，分割最適化クラスタ化法の，大別して2種類の方法がある．前者では単連結法，完全連結法，群平均法，ウォード法が，後者ではk-meansクラスタ化法が代表的な方法として知られている．そこで，本稿では，階層的クラスタ化法，分割最適化クラスタ化法，クラスタ分析の意味すること，最適な分類数，次元の呪い，クラスタ分析による疾患分類について解説する．

参考文献

１) Everitt BS：Cluster Analysis 4th ed., Hodder＆Stoughton Educational, 2001

２) 大橋靖雄：分類手法概論．計測と制御　24：999-1006, 1985

３) 三中信宏：クラスター分析の光と闇―なぜヒトは分類に憑かれるのか？　東京都立大学「生物統計学」集中講義，2004

４) Romesburg HC：Cluster Analysis for Researchers. Krieger Publishing Co, Malaber, 1990 (reprint)

５) Anderberg MR：Cluster Analysis for Applications, Academic Press, New York, 1973

６) 西本定明：クラスター分析入門：ファジイクラスタリングの理論と応用．森北出版，1999

７) Alizadeh A, Eisen MB, Davis RE, et al：Distinct types of diffuse large B-Cell lymphoma identified by gene expression profiling. Nature 403：503-511, 2000

掲載誌情報

出版社：株式会社医学書院

電子版ISSN：1882-1367

印刷版ISSN：0485-1420

雑誌購入ページに移動

文献詳細