1）相関ルール | 臨床検査49巻12号 | 医学書院

特集臨床検査のための情報処理技術の進歩

4章　臨床検査情報の収集とデータマイニング 2. 自動診断：classification

1）相関ルール

著者：平田耕一¹ 原尾政輝¹

所属機関： ¹九州工業大学情報工学部知能情報工学科

ページ範囲：P.1433 - P.1437

文献購入ページに移動

文献概要

はじめに

　スーパーマーケットの購買データから，同時に購入される商品の組み合わせを発見するバスケット分析(basket analysis)により，例えば“野菜を購入する人は高い頻度で果物も購入する”，“パンを購入する人は高い頻度で乳製品も購入する”といったルールを見つけることができれば，商品陳列の位置やセット商品の設定などの販売戦略を立てることができる．上の例は因果関係が推測できる例であるが，“紙おむつを購入する人は高い頻度でビールを買う”のように，ときには思いもよらないルールが見つかることがある．このようなルールを相関ルール(association rule)と言う．

　相関ルールは購買データ以外のデータからも抽出することができる．本稿では，例として大阪府立急性期・総合医療センターのMRSAに対する薬剤感受性検査データの中で，抗生剤アミノグリコシド（AG），マクロライド（ML），カルバペネム（CBP），リファンピン（RFP）の感受性検査の一部である表1aを扱う．S，Rは感受性，耐性を表している．

　このデータから，例えば（AG＝R）である確率は0.8であり，（CBP＝R）である確率は0.5であることがわかる．また，（AG＝R）と（CBP＝R）が同時に成り立つ確率は0.4であることがわかる．さらに，（CBP＝R）のときに（AG＝R）となる確率は，（CBP＝R）が出現する5個のデータのうち4個が（AG＝R）なので0.8であるが，（AG＝R）のときに（CBP＝R）となる確率は，（AG＝R）が出現する8個のデータのうち4個が（CBP＝R）なので0.5である．

　ここで（AG＝R）や（CBP＝R）などをアイテム(item)，（AG＝R）（CBP＝R）などのアイテムの列をアイテム集合(itemset)と言う．アイテム集合はアイテムが同時に出現していることを意味する．さらに，「（CBP＝R）と（ML＝R）が同時に出現しているならば（AG＝R）が出現している」ということを（CBP＝R）（ML＝R）⇒（AG＝R）と表す．形式的には，X∩Y≠0となるアイテム集合X,Yに対して，X⇒Yを相関ルールと言う．ここで，Xを前提部(premise)，Yを結論部(conclusion)と言う．

　相関ルールの抽出には自然数のtidとアイテム集合のトランザクション(transaction)の組からなるトランザクションデータベース(transaction database)を用いる．例えば表1bのD¹は，表1aのトランザクションデータベースである．

　アイテム集合Xに対して，Xを含むデータベース中のトランザクションのtidの集合をtid（X）と表す．さらに，supp（X）＝|tid（X）|/|ディー|をXの支持度(support)と言う．例えば表1のディー¹に対して，tid（（AG＝R）（ML＝R）（RFP＝S））＝｛0,2,8｝であり，supp（（AG＝R）（ML＝R）（RFP＝S））＝3/10＝0.3である．

　相関ルールX⇒Yに対して，supp（X⇒Y）＝supp（X∪Y）をX⇒Yの支持度(support)と言い，conf（X⇒Y）＝supp（X∪Y）/supp（X）をX⇒Yの確信度(confidence)と言う．例えば，表1のディー¹に対して，r₁：（AG＝R）（ML＝R）⇒（RFP＝S）とr₂：（AG＝R）（RFP＝S）⇒（ML＝R）という2つの相関ルールについて考察する．supp（（AG＝R）（ML＝R）（RFP＝S））＝0.3なので，supp（r₁）＝supp（r₂）＝0.3となる．さらにsupp（（AG＝R）（ML＝R））＝0.6なので，conf（r₁）＝0.3/0.6＝0.5となる．一方，supp（（AG＝R）（RFP＝S））＝0.4なので，conf（r₂）＝0.3/0.4＝0.75となる．

　次項では最小支持度(minimum support)σと最小確信度(minimum confidence)γ（0≦σ,γ≦1）を与え，supp（X⇒Y）≧σかつconf（X⇒Y）≧γとなるようなすべての相関ルールX⇒Yを抽出するAgrawalら^1,2)の手法について解説する．

参考文献

１) Agrawal R, Mannila H, Srikant R, et al：Fast discovery of association rules. Advances in Knowledge Discovery and Data Mining (Fayyed UM, Piatetsky-Shapiro G, Smyth P et al, eds), AAAI/MIT Press, pp307-328, 1996

２) Agrawal R, Srikant R：Fast algorithms for mining association rules in large databases. Proc VLDB　94：487-499, 1994

３) Burdick D, Calimlim M, Gehrke J：MAFIA：A maximal frequent itemset algorithm for transaction databases. Proc ICDE　2001：443-452, 2001

４) 福田剛志，森本康彦，徳山豪：データマイニング(第3章：相関ルール)，共立出版，2001

５) Hirata K, Shima Y, Harao M, et al：Disjunctive rules extracted from MRSA data with verification. Proc CME　2005：326-330, 2005

６) Matsuoka K, Yokoyama, S, Tsumoto S, et al：Analysis of MRSA infection backbround factors by using data mining. Proc CME　2005：331-334, 2005

７) Pasquier N, Bastide Y, Taouil R, et al：Discovering frequent closed itemsets for association rules. Proc ICDT99 (LNCS 1540)：398-416, 1999

８) Shima Y, Hirata K, Harao M, et al：Extracting disjunctive closed rules from MRSA data. Proc CME　2005：321-325, 2005

９) Zaki MJ, Hsiao C-J：CHARM：An efficient algorithm for closed itemset mining. Proc SDM　2002：457-478, 2002

掲載誌情報

出版社：株式会社医学書院

電子版ISSN：1882-1367

印刷版ISSN：0485-1420

雑誌購入ページに移動

文献詳細