
「ビッグデータにも活用できる主成分分析とは」<2016年06月15日>

主成分分析は複数の特性値で特徴づけられるサンプルデータ、複数の質問項目から成るアンケートデータなどの分析で活用されてきた代表的な多変量解析法の一つです。
とくに最近ではビッグデータを業務に活かすことが求められるようになってきましたが、あまりにも多くの特性値や変数、観測時点があるため、どうやって手を付けて良いのかわからない、といった相談も多くあります。このようなときに、データの情報を損なうこと無く、変数の次元を効果的に減らすことができる主成分分析がとても役に立ちます。
主成分分析を行うと
① 互いに相関のある多変数のデータ構造が単純化され情報が重複しない主要な成分
(主成分)が抽出される(データ構造の把握)
② 影響の大きな主成分のみを対象とすることで効率的にデータの次元が減らせる
(次元の縮約)
③ 解釈された主成分軸によって対象ケースに得点が付されるので、その得点によって
対象が効果的に分類される(対象の弁別)
④ 主成分の解釈から新しい指標を作れる(新指標の作成)
などが可能になります。
このことから主成分分析によって、実際に顧客や従業員の満足度調査のデータから調査対象者の意識構造を決定する主成分を導き、性別や年齢などの対象者の属性と主成分の関係を明らかにしたり、いろいろな特性値で特徴付けられる商品やサンプルを弁別する主要な情報軸(選好ベクトル)を見つけたりすることができ、そのため,多くの分野の商品企画や製品管理に活用されています。とくに、商品属性と意識構造との関連性に着目すれば、企画だけではなく設計にも活かせる分析結果を得ることができます。
また、最近のビッグデータ分析に対しても、主成分分析は、複数の変数を先ずはまとめることができるので、変数の次元に惑わされること無く、データの構造を見通すことができ、ブラックボックスで何をやっているのか、状況を説明できない機械学習などの手法と違い、要因を考察することにも役立ちます。
個々の特性値のみにとらわれた分析では、データに隠された本質を見出すことはできません。例えて言うと、人工知能のアルファ碁が名人をも凌ぐ状況判断ができるのも、大局観という本質がデータから内部で計量化できているからこそです。
主成分分析をマスターし、隠れたデータ構造を見出すスキルとセンスを身につけ、実務に活かしてみましょう。



渡辺 美智子
(わたなべ みちこ)
日本科学技術連盟
多変量解析セミナー運営委員
立正大学 データサイエンス学部 教授
慶應義塾大学大学院健康マネジメント研究科教授,理学博士
独立行政法人統計センター理事
総務省統計研修所・本科講師
放送大学客員教授・TV科目「身近な統計」主任講師
情報・システム研究機構 統計数理研究所運営委員
専門は統計学、統計教育。日本学術会議連携会員

