題目: 混合因子分析の有用性の検証と応用

氏名: 高塚史彦

担当教員: 山岸俊男


クラスター分析は階層的クラスタリングと非階層的クラスタリングに大別される.後者は主にクラスター数が既知の場合に用いられ,代表的な手法としてk-meansがある.k-meansは広く用いられているが,クラスターの境界が非線形の場合,正確に分類できないことが知られている.また観測値に正規分布を仮定し分析する手法として,混合正規分布モデルがある.この手法はクラスターの境界が非線形の場合でも正確に分類できるが,分散共分散行列の全ての要素を自由パラメータとすると,パラメータ数が過大になり推定が困難になる場合がある.

本研究で取り上げる混合因子分析(Mixtures of Factor Analyzers, MFA)は混合正規分布モデルによるクラスター分析と因子分析によるパラメータの縮約を同時に行い,k-meansと混合正規分布モデルの欠点を同時に解決する手法である.本研究では,人工データを用いたシミュレーションによってMFAの有用性の検証を行い,また,MFAと最小平均偏相関(Minimum Average Partial, MAP)の併用による因子数の自動推定を提案し,その有効性の検証を行った.

第一のシミュレーションではMFAの有用性を検証した.ここでは2つのクラスター間の距離と因子構造を設定し生成した人工データをk-meansとMFAで分析し,その結果を比較した.また推定する際,因子数を過大または過小に設定することの影響を確認した.その結果,クラスター間の距離が接近している場合,MFAの方が正確にクラスターの平均値を推定していることが確認された.クラスターの正答率はk-meansの方が高いことが確認された.因子数については,過大に設定した場合は,クラスターの誤分類や平均値等の不正確な推定は生じないことが確認された.

第二のシミュレーションでは,MFAとMAPの併用による因子数の自動推定に関する検証を行った.第一のシミュレーションの結果を受け,因子数を最大に設定してMFAで推定した分散共分散行列からMAPを最小とする因子数を決定し,それをクラスターの因子数とすることとした.検証の結果,因子数の正答率は86%であったが,誤答の多くは因子数が多く個々の因子の寄与が小さいためのものであった.したがって,因子の解釈を行うことを考慮するとMAPによって正確に推定可能な真の因子数をクラスターの因子数とすることができると考えられる.


卒業論文題目一覧