2. 自動診断:classification
1)相関ルール
著者:
平田耕一
,
原尾政輝
ページ範囲:P.1433 - P.1437
はじめに
スーパーマーケットの購買データから,同時に購入される商品の組み合わせを発見するバスケット分析(basket analysis)により,例えば“野菜を購入する人は高い頻度で果物も購入する”,“パンを購入する人は高い頻度で乳製品も購入する”といったルールを見つけることができれば,商品陳列の位置やセット商品の設定などの販売戦略を立てることができる.上の例は因果関係が推測できる例であるが,“紙おむつを購入する人は高い頻度でビールを買う”のように,ときには思いもよらないルールが見つかることがある.このようなルールを相関ルール(association rule)と言う.
相関ルールは購買データ以外のデータからも抽出することができる.本稿では,例として大阪府立急性期・総合医療センターのMRSAに対する薬剤感受性検査データの中で,抗生剤アミノグリコシド(AG),マクロライド(ML),カルバペネム(CBP),リファンピン(RFP)の感受性検査の一部である表1aを扱う.S,Rは感受性,耐性を表している.
このデータから,例えば(AG=R)である確率は0.8であり,(CBP=R)である確率は0.5であることがわかる.また,(AG=R)と(CBP=R)が同時に成り立つ確率は0.4であることがわかる.さらに,(CBP=R)のときに(AG=R)となる確率は,(CBP=R)が出現する5個のデータのうち4個が(AG=R)なので0.8であるが,(AG=R)のときに(CBP=R)となる確率は,(AG=R)が出現する8個のデータのうち4個が(CBP=R)なので0.5である.
ここで(AG=R)や(CBP=R)などをアイテム(item),(AG=R)(CBP=R)などのアイテムの列をアイテム集合(itemset)と言う.アイテム集合はアイテムが同時に出現していることを意味する.さらに,「(CBP=R)と(ML=R)が同時に出現しているならば(AG=R)が出現している」ということを(CBP=R)(ML=R)⇒(AG=R)と表す.形式的には,X∩Y≠0となるアイテム集合X,Yに対して,X⇒Yを相関ルールと言う.ここで,Xを前提部(premise),Yを結論部(conclusion)と言う.
相関ルールの抽出には自然数のtidとアイテム集合のトランザクション(transaction)の組からなるトランザクションデータベース(transaction database)を用いる.例えば表1bのD1は,表1aのトランザクションデータベースである.
アイテム集合Xに対して,Xを含むデータベース中のトランザクションのtidの集合をtid(X)と表す.さらに,supp(X)=|tid(X)|/|ディー|をXの支持度(support)と言う.例えば表1のディー1に対して,tid((AG=R)(ML=R)(RFP=S))={0,2,8}であり,supp((AG=R)(ML=R)(RFP=S))=3/10=0.3である.
相関ルールX⇒Yに対して,supp(X⇒Y)=supp(X∪Y)をX⇒Yの支持度(support)と言い,conf(X⇒Y)=supp(X∪Y)/supp(X)をX⇒Yの確信度(confidence)と言う.例えば,表1のディー1に対して,r1:(AG=R)(ML=R)⇒(RFP=S)とr2:(AG=R)(RFP=S)⇒(ML=R)という2つの相関ルールについて考察する.supp((AG=R)(ML=R)(RFP=S))=0.3なので,supp(r1)=supp(r2)=0.3となる.さらにsupp((AG=R)(ML=R))=0.6なので,conf(r1)=0.3/0.6=0.5となる.一方,supp((AG=R)(RFP=S))=0.4なので,conf(r2)=0.3/0.4=0.75となる.
次項では最小支持度(minimum support)σと最小確信度(minimum confidence)γ(0≦σ,γ≦1)を与え,supp(X⇒Y)≧σかつconf(X⇒Y)≧γとなるようなすべての相関ルールX⇒Yを抽出するAgrawalら1,2)の手法について解説する.