セミナーレポート:「モノづくりにおける問題解決のためのデータサイエンスベーシックコース」<2021年03月04日>
多数のご参加を賜りました本セミナーに、
品質管理セミナーベーシックコース講師の加瀬 三千雄氏が聴講されました。
受講レポートを公開させていただきます。
■セミナー概要
2021年1月26日から2月9日まで述べ5日間の表記コースを聴講する機会を得た。結論を最初に言えば、設計・製造及び品質管理に携わる技術者が最低限必要な知識として押さえていくべきことの紹介をするコースと感じた。「紹介」という言葉は、吉野講師に大変失礼であることは承知している。筆者は、品質管理者として工程改善や設計品質向上のため古典統計を活用していた。一方で毎日工程から大量のデータが得られるものの処理に戸惑っていた。当時はパソコンが普及し始めたばかりで、工程データをリアルの折線グラフや1時間毎のヒストグラムで管理したり、翌日集計して管理するのが精一杯であった。当時の筆者と同様な方には大きな指針となるだろう。
ビッグデータとは、得られるデータの数が多い(大標本)というだけではなく、一つのデータを構成する要素の数が多い(高次元)という意味である。「特性要因図を書くとき、100個以上要因を挙げなければ使い物にならない」と言われたことがある。つまり、製品の品質特性に影響を与える要因は100個以上あり、IoTが普及した現在ではこれらのデータを収集できる環境にある。これを活用しない理由はない。
本コースは、1日の「予備コース」、2日間の「基礎編」、2日間の「活用編」から成る。
データサイエンス(ビッグデータ解析)を学ぶためには、古典統計論(確率変数、尤度、重回帰分析、主成分分析等)の理解が必要であるとして、1日という短い時間であるが「予備コース」を設定している。古典統計論を学んでいた筆者にとって、切り口を変えた説明は目からうろこが多かった。吉野先生にはご負担をおかけすることになるが、この予備コースの時間を倍にしても足りないぐらいに感じたのは筆者だけだろうか。
基礎編では、ビッグデータが持つ特徴を説明している。そして古典統計(イベント・ドリブン)とデータ・サイエンス(データ・ドリブン)の違いを丁寧に説明している。ところで、我々がデータを分析する目的は何であろうか。それはデータ(結果として表れた現象)を通して背後にある母集団を分類して、その母集団の違いに着目して対応することにある。つまりデータを何らかの方法で分類することになる。古典統計も分類のための手法(仮説検定、最尤推定、SEM、主成分分析等)であり、データ・サイエンス(機械学習)は識別モデル派(データマイニング、カーネルトリック等)と生成モデル派(ベイズ推定等)がある。機械学習ではベイズ推定が重要なことから例題を多用して説明している。
さて分類をするには、データに識別境界を作らなければならない。その方法を事例で紹介している。これらの過程で、古典統計の考え方と機械学習の考え方を対比して、古典統計ではビッグデータの解析ができないこと、機械学習ではこのような考え方で解析ができるよということを演習データを使って受講生にPC解析をさせている。
活用編は、製造業が実務でビッグデータを解析する際の注意事項を説明している。製造業では日々大量のデータが得られるが、データに異常値が含まれていたり、欠測値があったりしてそのまま使えないため、データクリーニングが必要となる。また、調べたい要因が多数(200以上ある)ため、データ数として不十分である。しかも要因間で強い相関があるため、重回帰分析では多重共線性が起きて解析不能になったり、解析できたとしても正しい答えが得られない、つまり古典統計では歯が立たないことがある。これらの説明と対処法を実際のデータを使って受講生がPCで体感できるようにしている。その中でもglasoo(グラフィカルラスー)は、特に興味深い深いものであった。
■時間割
いずれのセッションでも、事例データを使って受講生が自分で解析をしながら説明を聞くことは理解を深める上で効果的である。本コースでは統計解析ソフトとして“R”を使っている。正直言って筆者はRを使うのが始めてであった。Rはコマンド形式のソフトなので、それなりのプログラミング知識と、Rの言語ルールも必要である。しかし、吉野講師があらかじめ解析のためのプログラミングを“スクリプト”として用意され、事前配布されるのでRの知識がない人でも問題がない。
吉野先生は、分かりやすい説明を心がけておられ、まずは概念を理解することに重点を置かれていると感じた。そのため理解に必要な数式を示すに留めておられる、その意味では「なぜこうなるのか、その過程を知りたい」という方には物足りないかもしれない。一方で、こういう風になるよという結果を中心に解説(その前提となる理論は習得済みとしている)していることから、難しく感じる方も多いと思われる(実は筆者もその一人)。
このコースを受講したことで、いかに自分が勉強不足であったかを今更ながら痛感した。改めて勉強すべきことは何かを知る意味でも良いコースといえる。始めて学ぶ人にとっては「難しい・ハードルが高い」と思われるかもしれない。しかしそのような方こそ、機械学習の全体像を知ることが重要で、知らなければ何もできない。業務の中で活用するためのヒントを得る「入り口」として、このコースを受講されることを期待する。
最後に、現代では古典統計論が使えないとか、不要であるとか言っているのではないことを強調しておきたい。新製品開発の段階や、製造条件の確立等々の場面でいかに少ない実験で効率よく結果を出すかという場面では古典統計は有用である。古典統計とデータ・サイエンスのそれぞれの特徴をただしく理解し、固有技術を踏まえTPOに合わせて使いこなす技量を持った人財になって頂くことを期待する。
加瀬 三千雄(かせ みちお)氏
略歴
1970年 3月:日本大学 生産工学部 電気工学科 卒業
1970年 4月:日本電気(株)入社
大型汎用計算機の回路設計
電子交換機の品質管理、品質保証システム構築
電源装置、HICの信頼性管理と信頼性技術
品質保証体系図、QC工程図(QC工程表)、管理図の他、検査標準・作業標準等に従事する
1985年 4月:東北日本電気(株)出向
電子交換機及びHICの製造品質管理
全社品質管理システム構築
デミング賞推進事務局
1989年12月:日本電気通信システム(株)出向
ソフトウェアプログラムの品質保証システム構築
1995年12月:日本電気ファクトリエンジニアリング(株)出向
ISO9001(品質)主任審査員
ISMS 主任審査員
ISO014001(環境)審査員補
顧客のコンサルティングが主業務