分析せよ！と言われて困っているあなたへの処方箋

データサイエンティスト協会
勉強会2016 第2回
分析せよ！と言われて困っているあなたへの処方箋
2016年9月28日
SAS Institute Japan株式会社辻仁史

Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
目的
社会のビッグデータ化に伴い重要視されているデータサイエンティスト（分析人材）の育成のため、
その技能（スキル）要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。
分析技術認定（レベル認定）などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな
い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。

3rdシンポジウム
2
今年のテーマは、「人工知能時代のデータサイエンティスト」
AIへの関心の高まりと利用事例が増える中、データサイエ
ンティストに求められる新しい役割を浮き彫りにします
日時： 2016年10月14日（金） 10:00～20:00
会場： JPタワーホール＆カンファレンス（丸の内）
参加費：事前割引 14,000円当日 17,000円
http://www.datascientist.or.jp/symp/2016/

Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 3
ケーススタディ

小型化への挑戦
4

https://www.koaglobal.com/product/ltcc-basic
製造プロセス

品質分析ビッグ
データ
項目数：約
15,000
①初期調査
収縮率変動は、原料生成後
特性Aの寄与が大きい。
②メカニズム
原因は焼成温度？
→温度管理はされている。
→実温のばらつき！
③試行
設定温度一定から実温管理
収束するがまだ変動あり。
試行１回目
①改善後追加調
査
収縮率変動は、原料物性
値Cの寄与が見られる。
②メカニズム
原因はD工程の加工？
→物質E量のばらつき！
③試行
ロット毎に物質E量測定
Cのあわせ込み
試行２回目
分析サイクル

データサイエンティストのスキル

様々な分析サイクル
現状の課題把握
課題の対策対策規定実行
現場改善

分析ができない原因を考察

分析が定着しない原因は・・・
なかなか分析が定着しない理由
・目標設定
・サイクルが回らない。
・課題発見
・関係者
・データ整備
・・・

効果があり着手しやすい領域を考える
共通分析情報基盤
現状把握効率化・改善創造・立案
・定例レポート
・施策評価レポート
・予実レポート
ビジネスインテリジェンスビジネスアナリティクス
・ターゲティングモデル
・受注予測モデル
・発注最適化モデル
・構造解析モデル
予測値
レポート
データ
モデル開発
データ
データサイエンス
・顧客セグメンテーション
・プロダクトマッピング
・レコメンド
・テキスト分析
分析用
データ
新情報
付加
・ライフスタイル推定
企画実行評価

まずは予測モデルから

予測モデルを開発する前に考えるべきこと
課題の理解・目的の設定
何を予測（推定）できればうれしいのか？
課題をとりまく環境の理解
なぜそのような結果になるのか？
手法の理解
可読性・精度

予測モデルの例（教師付学習）
商談成約率売上予測
不正検知ネットワーク
故障

予測モデルのトレンド
NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の
支障（遅延、運休など）を予測する。
NTTドコモ主催のコンペ
参加者
総勢48人の参加者が683種類の予測モデルを構築。
結果
精度１位：ニューラルネットワーク
２位：ランダムフォレスト、ニューラルネットワーク等のアンサンブル
３位：勾配ブースティング
上位はすべて
機械学習

モデル手法：決定木
顧客番号購入金額購入回数鮮度････応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
･･････
過去データ（キャンペーン応募）
応募者の特徴（ルール）
応募者
60％
購入金額
3000円未満 3000円以上
30％ 80％
ツリー（木）が１本なのでルールを読み取りやすい

モデル手法：ランダムフォレスト
過去データ
（キャンペーン応募）
応募者の特徴
（ルール）
顧客番号購入金額購入回数鮮度････応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
･･････
予測する
ツリー（木）がたくさんのフォレスト（森）なので
ルールを読み取りにくい
計算量も増える
けど、予測精度はよい。

18
決定木とランダムフォレストの違い
１つのモデル（木）は
融通が利かない
→汎化能力が低い
複数のモデル（森）は
融通が利く
→汎化能力が高い
汎化能力が高いほど予測誤差は少ない。複数モデルを作るにはデータ数が必要

汎化能力とは
新しいデータでも正しく予測できる能力・・・・汎化能力
汎化能力が高い＝汎化誤差が少ない
汎化誤差・・・新しいデータに当てはめたときの誤差
汎化誤差＝モデル構築データ選び方＋手法の適合性・パラメタ＋ノイズ
モデル構築データの誤差を少なくするには・・・
１：データを増やす/手法を変える
２：多数のトレーニングを行う

モデル開発のプロセス
データ収集モデル開発モデル評価実装
精度評価

Step1：データ収集
モデル開発用データを定義する。
事前確認
モデル開発単位の定義
ターゲットの定義
ターゲットの評価期間
データ（変数）加工
データ抽出（サンプリング）

■事前確認
モデル開発に必要なデータ項目・取得可能なデータ項目の確認
・モデル開発対象（ターゲット）の定義
・スコアリング時点で取得できる情報
・取得できるデータの保存期間
・季節性の影響
・リレーションキー
・ユニーク条件
・モデル開発対象とスコアリング対象の差
・マスターコードの追加・変更

■モデル開発単位の定義
1つのモデルだけで対象者全員をスコアリングする
対象を分類してそれぞれのモデルでスコアリングする
一般にモデルの開発単位（セグメント）は、1つのモデルでス
コアリングするよりも特徴的な行動などで対象を分類し、類似
する集団毎にモデルを開発する方が精度が上がると言われて
います。

■ターゲットの定義
少ないターゲット数で開発したモデルは、発生傾向が集団
ではなく個で表現されるモデルになるため、予測精度が不安
定になることが多い。
ターゲット件数
OK
対応検討
ターゲット定義緩和
（その他ウェイト調整など）
十分
不足

■データ（変数）加工
■欠損値の取り扱い方法の検討
除去
補間（中央値、平均値、etc)
■定性データ
属性の最新データ
■定量データ
一定期間の平均
差分、比率の算出など
■グルーピング（離散化）

データ分割
変数選択
モデルの作成
Step2：モデル開発

■データ分割
モデル開発データをモデル開発用の学習データとモデル評
価用の検証データに分割し、過学習を抑止する。
モデル
開発データ
学習データ(70％)
検証データ(30％)
モデル作成
モデル当てはめ
Step2：モデル開発

■変数選択
モデルの説明変数を以下の変数選択法を指定して選択
することができる。
減少法（Backward）
増加法（Forward）
ステップワイズ法（Stepwise)
なし（None)
モデルの説明変数は必要以上に増やせば増やすほど学習
データのノイズにまでフィットしてしまうため学習データでの当て
はまりがよくても汎化誤差が増える。

■変数選択
減少法（Backward）
全ての候補変数をモデル式に追加し、そこから設定した有意水準で
有意でないと判断した変数をモデルから除去する。
一度モデルから除かれた変数は二度とモデルに含まれない。
設定した有意水準で有意でない変数がなくなるまで変数の除去が
続けられる。
増加法（Forward）
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルに追加した変数は二度とモデルから外されない。
設定した有意水準で有意となる変数がなくなるまで変数の追加が続
けられる。

■変数選択
ステップワイズ法（Stepwise）
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルから追加した変数であってもモデル内で効果が無いと判
断された場合は除去する。
次元削減（主成分分析）
変数クラスタリング

■変数選択
（自動）変数選択法は非常にパワフルで明快な方法であるため、
開発者がその結果に頼ってしまうという間違いに陥りやすい。
極端に言えば、（自動）変数選択法の結果を完全に信用していい
状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関
する知識が全く無い場合だけである。
通常、開発者は何らかの仮説、理論、既知の知識を持っている。
（自動）変数選択法はあくまでも補助的な情報として用いるべきで
あり、開発者の経験からくる仮説、理論、既知の知識などを変数選
択の結果よりも優先することが薦められる。

■モデルの作成
モデルによって得手不得手があるので、分析によって使い分けるのがよい。
• 決定木
• 線形回帰
• ロジスティック回帰
• PLS回帰
• ニューラルネットワーク
• 順序ロジット
• 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。
• SVM (Support Vector Machine)
• k近傍法
• k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら
の多数決で自身のターゲット変数を予測するという簡単な方法
予測モデルの組合せ
予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。
• 多数決：複数モデルの予測結果の多数決をとる。
• ブースティング：重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。
複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。

データ収集モデル開発モデル評価
Step3：モデル評価
■ターゲットの補足割合を評価
CAP曲線とは
横軸にターゲットの発生率の高い順（スコア昇順）に
10分位点（Decile)をとり、縦軸に各十分位点にお
ける累積ターゲット発生率（ターゲット補足率）をとっ
たプロットに示される曲線。
モデルに全く説明力が無く、予測ターゲット発生率と実
際のターゲット発生率に関係がない場合、どのような予
測発生率のレベルであろうと、同じ割合で実際のター
ゲットが含まれているため、CAP曲線は45度線上にプ
ロットされる。
またモデルの説明力が高い場合は、低い十分位点で
多くのターゲットが補足できている曲線がプロットされる。

データ収集モデル開発モデル評価
■モデルの判別精度を評価
⇒KS（Kolmogorov Smirnov）値を確認
KS値とは
横軸にスコア値（昇順）、縦軸に実績のターゲット、非ターゲット別にスコアの低い順
からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど
判別力が高い。
Good累積構成
比
Bad累積構成比
KS値

ROC曲線
ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。
• AUCは最小で0, 最大で1となる。
• 完璧な(100%正解する)モデルでは、AUC=1.0となる。
• ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。

R二乗
ターゲットは離散の場合でも連続の場合でも使える評価指標。
R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。
R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。
• R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予
測精度が高いことを表す。
• 100%正解するモデルでは、R二乗=1.0となる。
• 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。

まとめ

分析せよ！と言われて困っているあなたへの処方箋

More Related Content

What's hot (20)

Viewers also liked (7)

Similar to 分析せよ！と言われて困っているあなたへの処方箋 (20)

More from The Japan DataScientist Society (20)

分析せよ！と言われて困っているあなたへの処方箋