データサイエンティスト協会
勉強会2016 第2回
分析せよ!と言われて困っているあなたへの処方箋
2016年9月28日
SAS Institute Japan株式会社 辻 仁史
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
データサイエンティスト協会
目的
社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、
その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。
分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな
い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
データサイエンティスト協会
3rdシンポジウム
2
今年のテーマは、「人工知能時代のデータサイエンティスト」
AIへの関心の高まりと利用事例が増える中、データサイエ
ンティストに求められる新しい役割を浮き彫りにします
日時 : 2016年10月14日(金) 10:00~20:00
会場 : JPタワー ホール&カンファレンス(丸の内)
参加費: 事前割引 14,000円 当日 17,000円
http://www.datascientist.or.jp/symp/2016/
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 3
ケーススタディ
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
小型化への挑戦
4
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 5
https://www.koaglobal.com/product/ltcc-basic
製造プロセス
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 6
品質分析ビッグ
データ
項目数:約
15,000
①初期調査
収縮率変動は、原料生成後
特性Aの寄与が大きい。
②メカニズム
原因は焼成温度?
→温度管理はされている。
→実温のばらつき!
③試行
設定温度一定から実温管理
収束するがまだ変動あり。
試行1回目
①改善後追加調
査
収縮率変動は、原料物性
値Cの寄与が見られる。
②メカニズム
原因はD工程の加工?
→物質E量のばらつき!
③試行
ロット毎に物質E量測定
Cのあわせ込み
試行2回目
分析サイクル
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 7
データサイエンティストのスキル
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 8
様々な分析サイクル
現状の課題把握
課題の対策 対策規定実行
現場改善
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 9
分析ができない原因を考察
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 10
分析が定着しない原因は・・・
なかなか分析が定着しない理由
・目標設定
・サイクルが回らない。
・課題発見
・関係者
・データ整備
・・・
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 11
効果があり着手しやすい領域を考える
共通分析情報基盤
現状把握 効率化・改善 創造・立案
・定例レポート
・施策評価レポート
・予実レポート
ビジネスインテリジェンス ビジネスアナリティクス
・ターゲティングモデル
・受注予測モデル
・発注最適化モデル
・構造解析モデル
予測値
レポート
データ
モデル開発
データ
データサイエンス
・顧客セグメンテーション
・プロダクトマッピング
・レコメンド
・テキスト分析
分析用
データ
新情報
付加
・ライフスタイル推定
企画実行評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 12
まずは予測モデルから
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 13
予測モデルを開発する前に考えるべきこと
課題の理解・目的の設定
何を予測(推定)できればうれしいのか?
課題をとりまく環境の理解
なぜそのような結果になるのか?
手法の理解
可読性・精度
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 14
予測モデルの例(教師付学習)
商談成約率 売上予測
不正検知 ネットワーク
故障
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 15
予測モデルのトレンド
NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の
支障(遅延、運休など)を予測する。
NTTドコモ主催のコンペ
参加者
総勢48人の参加者が683種類の予測モデルを構築。
結果
精度1位 : ニューラルネットワーク
2位 : ランダムフォレスト、ニューラルネットワーク等のアンサンブル
3位 : 勾配ブースティング
上位はすべて
機械学習
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 16
モデル手法:決定木
顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
・・・ ・・・
過去データ(キャンペーン応募)
応募者の特徴(ルール)
応募者
60%
購入金額
3000円未満 3000円以上
30% 80%
ツリー(木)が1本なのでルールを読み取りやすい
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 17
モデル手法:ランダムフォレスト
過去データ
(キャンペーン応募)
応募者の特徴
(ルール)
顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
・・・ ・・・
予測する
ツリー(木)がたくさんのフォレスト(森)なので
ルールを読み取りにくい
計算量も増える
けど、予測精度はよい。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
18
決定木とランダムフォレストの違い
1つのモデル(木)は
融通が利かない
→汎化能力が低い
複数のモデル(森)は
融通が利く
→汎化能力が高い
汎化能力が高いほど予測誤差は少ない。 複数モデルを作るにはデータ数が必要
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 19
汎化能力とは
新しいデータでも正しく予測できる能力 ・・・・ 汎化能力
汎化能力が高い = 汎化誤差が少ない
汎化誤差 ・・・ 新しいデータに当てはめたときの誤差
汎化誤差=モデル構築データ選び方+手法の適合性・パラメタ+ノイズ
モデル構築データの誤差を少なくするには ・・・
1:データを増やす/手法を変える
2:多数のトレーニングを行う
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 20
モデル開発のプロセス
データ収集 モデル開発 モデル評価 実装
精度評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 21
Step1:データ収集
モデル開発用データを定義する。
事前確認
モデル開発単位の定義
ターゲットの定義
ターゲットの評価期間
データ(変数)加工
データ抽出(サンプリング)
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 22
Step1:データ収集
■事前確認
モデル開発に必要なデータ項目・取得可能なデータ項目の確認
・モデル開発対象(ターゲット)の定義
・スコアリング時点で取得できる情報
・取得できるデータの保存期間
・季節性の影響
・リレーションキー
・ユニーク条件
・モデル開発対象とスコアリング対象の差
・マスターコードの追加・変更
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 23
■モデル開発単位の定義
1つのモデルだけで対象者全員をスコアリングする
対象を分類してそれぞれのモデルでスコアリングする
一般にモデルの開発単位(セグメント)は、1つのモデルでス
コアリングするよりも特徴的な行動などで対象を分類し、類似
する集団毎にモデルを開発する方が精度が上がると言われて
います。
Step1:データ収集
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 24
■ターゲットの定義
Step1:データ収集
少ないターゲット数で開発したモデルは、発生傾向が集団
ではなく個で表現されるモデルになるため、予測精度が不安
定になることが多い。
ターゲット件数
OK
対応検討
ターゲット定義緩和
(その他ウェイト調整など)
十分
不足
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 25
Step1:データ収集
■データ(変数)加工
■欠損値の取り扱い方法の検討
除去
補間(中央値、平均値、etc)
■定性データ
属性の最新データ
■定量データ
一定期間の平均
差分、比率の算出など
■グルーピング(離散化)
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 26
データ分割
変数選択
モデルの作成
Step2:モデル開発
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 27
■データ分割
モデル開発データをモデル開発用の学習データとモデル評
価用の検証データに分割し、過学習を抑止する。
モデル
開発データ
学習データ(70%)
検証データ(30%)
モデル作成
モデル当てはめ
Step2:モデル開発
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 28
■変数選択
モデルの説明変数を以下の変数選択法を指定して選択
することができる。
減少法(Backward)
増加法(Forward)
ステップワイズ法(Stepwise)
なし(None)
モデルの説明変数は必要以上に増やせば増やすほど学習
データのノイズにまでフィットしてしまうため学習データでの当て
はまりがよくても汎化誤差が増える。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 29
■変数選択
減少法(Backward)
全ての候補変数をモデル式に追加し、そこから設定した有意水準で
有意でないと判断した変数をモデルから除去する。
一度モデルから除かれた変数は二度とモデルに含まれない。
設定した有意水準で有意でない変数がなくなるまで変数の除去が
続けられる。
増加法(Forward)
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルに追加した変数は二度とモデルから外されない。
設定した有意水準で有意となる変数がなくなるまで変数の追加が続
けられる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 30
■変数選択
ステップワイズ法(Stepwise)
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルから追加した変数であってもモデル内で効果が無いと判
断された場合は除去する。
次元削減(主成分分析)
変数クラスタリング
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 31
■変数選択
(自動)変数選択法は非常にパワフルで明快な方法であるため、
開発者がその結果に頼ってしまうという間違いに陥りやすい。
極端に言えば、(自動)変数選択法の結果を完全に信用していい
状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関
する知識が全く無い場合だけである。
通常、開発者は何らかの仮説、理論、既知の知識を持っている。
(自動)変数選択法はあくまでも補助的な情報として用いるべきで
あり、開発者の経験からくる仮説、理論、既知の知識などを変数選
択の結果よりも優先することが薦められる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 32
■モデルの作成
モデルによって得手不得手があるので、分析によって使い分けるのがよい。
• 決定木
• 線形回帰
• ロジスティック回帰
• PLS回帰
• ニューラルネットワーク
• 順序ロジット
• 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。
• SVM (Support Vector Machine)
• k近傍法
• k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら
の多数決で自身のターゲット変数を予測するという簡単な方法
予測モデルの組合せ
予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。
• 多数決: 複数モデルの予測結果の多数決をとる。
• ブースティング: 重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。
複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 33
データ収集 モデル開発 モデル評価
Step3:モデル評価
■ターゲットの補足割合を評価
CAP曲線とは
横軸にターゲットの発生率の高い順(スコア昇順)に
10分位点(Decile)をとり、縦軸に各十分位点にお
ける累積ターゲット発生率(ターゲット補足率)をとっ
たプロットに示される曲線。
モデルに全く説明力が無く、予測ターゲット発生率と実
際のターゲット発生率に関係がない場合、どのような予
測発生率のレベルであろうと、同じ割合で実際のター
ゲットが含まれているため、CAP曲線は45度線上にプ
ロットされる。
またモデルの説明力が高い場合は、低い十分位点で
多くのターゲットが補足できている曲線がプロットされる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 34
データ収集 モデル開発 モデル評価
Step3:モデル評価
■モデルの判別精度を評価
⇒KS(Kolmogorov Smirnov)値を確認
KS値とは
横軸にスコア値(昇順)、縦軸に実績のターゲット、非ターゲット別にスコアの低い順
からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど
判別力が高い。
Good累積構成
比
Bad累積構成比
KS値
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 35
ROC曲線
ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。
• AUCは最小で0, 最大で1となる。
• 完璧な(100%正解する)モデルでは、AUC=1.0となる。
• ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。
Step3:モデル評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
R二乗
ターゲットは離散の場合でも連続の場合でも使える評価指標。
R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。
R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。
• R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予
測精度が高いことを表す。
• 100%正解するモデルでは、R二乗=1.0となる。
• 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。
Step3:モデル評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 37
まとめ

More Related Content

PDF
データサイエンスの全体像
PPTX
テスト分析入門 -「ゆもつよメソッド」を例に- #wacate
PDF
ビジネスの現場のデータ分析における理想と現実
PPTX
プロジェクトマネージャのための機械学習工学入門
PDF
最適化超入門
PDF
探索的テスト入門
PDF
ネットワーク ゲームにおけるTCPとUDPの使い分け
PDF
経営のアジリティを支えるDevOpsと組織
データサイエンスの全体像
テスト分析入門 -「ゆもつよメソッド」を例に- #wacate
ビジネスの現場のデータ分析における理想と現実
プロジェクトマネージャのための機械学習工学入門
最適化超入門
探索的テスト入門
ネットワーク ゲームにおけるTCPとUDPの使い分け
経営のアジリティを支えるDevOpsと組織

What's hot (20)

PPTX
フィーチャモデルの描き方
PPTX
強化学習 と ゲーム理論 (MARL)
PDF
ブレインパッドにおける機械学習プロジェクトの進め方
PDF
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
PDF
LINE Developer Meetup in Tokyo #39 Presentation (modified)
PDF
研究効率化Tips Ver.2
PDF
先端技術とメディア表現1 #FTMA15
PDF
[論文紹介] 機械学習システムの安全性における未解決な問題
PPTX
絶望と最後の希望
PPTX
QAアーキテクチャの設計による 説明責任の高いテスト・品質保証
PDF
研究発表を準備する(2022年版)
PDF
[DL輪読会]Control as Inferenceと発展
PDF
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
PDF
数学で解き明かす深層学習の原理
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
PDF
失敗から学ぶ機械学習応用
PDF
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
PPTX
WayOfNoTrouble.pptx
PDF
PlaySQLAlchemy: SQLAlchemy入門
PDF
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
フィーチャモデルの描き方
強化学習 と ゲーム理論 (MARL)
ブレインパッドにおける機械学習プロジェクトの進め方
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
LINE Developer Meetup in Tokyo #39 Presentation (modified)
研究効率化Tips Ver.2
先端技術とメディア表現1 #FTMA15
[論文紹介] 機械学習システムの安全性における未解決な問題
絶望と最後の希望
QAアーキテクチャの設計による 説明責任の高いテスト・品質保証
研究発表を準備する(2022年版)
[DL輪読会]Control as Inferenceと発展
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
数学で解き明かす深層学習の原理
学習時に使ってはいないデータの混入「リーケージを避ける」
失敗から学ぶ機械学習応用
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
WayOfNoTrouble.pptx
PlaySQLAlchemy: SQLAlchemy入門
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
Ad

Viewers also liked (7)

PDF
初心者のためのRとRStudio入門 vol.2
PDF
Impact of big data on analytics
PDF
データサイエンスの全体像とデータサイエンティスト
PPTX
Big Data and the Art of Data Science
PDF
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
PDF
はじめての「R」
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
初心者のためのRとRStudio入門 vol.2
Impact of big data on analytics
データサイエンスの全体像とデータサイエンティスト
Big Data and the Art of Data Science
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
はじめての「R」
Deep Learningと画像認識   ~歴史・理論・実践~
Ad

Similar to 分析せよ!と言われて困っているあなたへの処方箋 (20)

PDF
(道具としての)データサイエンティストのつかい方
PDF
20180730 ds womens
PDF
おしゃスタ@リクルート
PDF
あなたの業務に機械学習を活用する5つのポイント
PPTX
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
tut_pfi_2012
PDF
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
PDF
データ分析コンペでスキルアップしよう.pdf
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
PDF
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
PDF
presentation for padoc
PDF
データサイエンティスト スキルチェックリスト
PDF
データサイエンティスト スキルチェックシート(抜粋版)
PDF
Casual datascience vol3
PDF
おしゃスタat銀座
PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理
PDF
機械学習によるデータ分析まわりのお話
PPTX
Nttr study 20130206_share
(道具としての)データサイエンティストのつかい方
20180730 ds womens
おしゃスタ@リクルート
あなたの業務に機械学習を活用する5つのポイント
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
tut_pfi_2012
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データ分析コンペでスキルアップしよう.pdf
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
presentation for padoc
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックシート(抜粋版)
Casual datascience vol3
おしゃスタat銀座
データマイニングCROSS 第2部-機械学習・大規模分散処理
機械学習によるデータ分析まわりのお話
Nttr study 20130206_share

More from The Japan DataScientist Society (20)

PDF
学生から見たデータサイエンティスト
PDF
データサイエンティストの就労意識
PDF
AI・データ利活用継続の鍵はビジネススキル
PDF
コニカミノルタにおけるデータドリブンPLMの取り組み
PDF
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
PDF
エントリー層向けセミナー#04『はじめての最適化』
PDF
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
PDF
機械学習の先端センシングへの適用と展望
PDF
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
PDF
データサイエンティスト協会 会員制度説明資料
PDF
スキルチェックリスト 2017年版
PDF
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
PDF
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
PDF
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
PDF
データサイエンス業務と「ツール」
PDF
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
PDF
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
PDF
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
PDF
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
学生から見たデータサイエンティスト
データサイエンティストの就労意識
AI・データ利活用継続の鍵はビジネススキル
コニカミノルタにおけるデータドリブンPLMの取り組み
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
エントリー層向けセミナー#04『はじめての最適化』
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
機械学習の先端センシングへの適用と展望
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
データサイエンティスト協会 会員制度説明資料
スキルチェックリスト 2017年版
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データサイエンス業務と「ツール」
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』

分析せよ!と言われて困っているあなたへの処方箋

  • 2. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 目的 社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、 その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。 分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。
  • 3. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 3rdシンポジウム 2 今年のテーマは、「人工知能時代のデータサイエンティスト」 AIへの関心の高まりと利用事例が増える中、データサイエ ンティストに求められる新しい役割を浮き彫りにします 日時 : 2016年10月14日(金) 10:00~20:00 会場 : JPタワー ホール&カンファレンス(丸の内) 参加費: 事前割引 14,000円 当日 17,000円 http://www.datascientist.or.jp/symp/2016/
  • 4. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 3 ケーススタディ
  • 5. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 小型化への挑戦 4
  • 6. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 5 https://www.koaglobal.com/product/ltcc-basic 製造プロセス
  • 7. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 6 品質分析ビッグ データ 項目数:約 15,000 ①初期調査 収縮率変動は、原料生成後 特性Aの寄与が大きい。 ②メカニズム 原因は焼成温度? →温度管理はされている。 →実温のばらつき! ③試行 設定温度一定から実温管理 収束するがまだ変動あり。 試行1回目 ①改善後追加調 査 収縮率変動は、原料物性 値Cの寄与が見られる。 ②メカニズム 原因はD工程の加工? →物質E量のばらつき! ③試行 ロット毎に物質E量測定 Cのあわせ込み 試行2回目 分析サイクル
  • 8. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 7 データサイエンティストのスキル
  • 9. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 8 様々な分析サイクル 現状の課題把握 課題の対策 対策規定実行 現場改善
  • 10. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 9 分析ができない原因を考察
  • 11. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 10 分析が定着しない原因は・・・ なかなか分析が定着しない理由 ・目標設定 ・サイクルが回らない。 ・課題発見 ・関係者 ・データ整備 ・・・
  • 12. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 11 効果があり着手しやすい領域を考える 共通分析情報基盤 現状把握 効率化・改善 創造・立案 ・定例レポート ・施策評価レポート ・予実レポート ビジネスインテリジェンス ビジネスアナリティクス ・ターゲティングモデル ・受注予測モデル ・発注最適化モデル ・構造解析モデル 予測値 レポート データ モデル開発 データ データサイエンス ・顧客セグメンテーション ・プロダクトマッピング ・レコメンド ・テキスト分析 分析用 データ 新情報 付加 ・ライフスタイル推定 企画実行評価
  • 13. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 12 まずは予測モデルから
  • 14. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 13 予測モデルを開発する前に考えるべきこと 課題の理解・目的の設定 何を予測(推定)できればうれしいのか? 課題をとりまく環境の理解 なぜそのような結果になるのか? 手法の理解 可読性・精度
  • 15. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 14 予測モデルの例(教師付学習) 商談成約率 売上予測 不正検知 ネットワーク 故障
  • 16. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 15 予測モデルのトレンド NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の 支障(遅延、運休など)を予測する。 NTTドコモ主催のコンペ 参加者 総勢48人の参加者が683種類の予測モデルを構築。 結果 精度1位 : ニューラルネットワーク 2位 : ランダムフォレスト、ニューラルネットワーク等のアンサンブル 3位 : 勾配ブースティング 上位はすべて 機械学習
  • 17. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 16 モデル手法:決定木 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 過去データ(キャンペーン応募) 応募者の特徴(ルール) 応募者 60% 購入金額 3000円未満 3000円以上 30% 80% ツリー(木)が1本なのでルールを読み取りやすい
  • 18. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 17 モデル手法:ランダムフォレスト 過去データ (キャンペーン応募) 応募者の特徴 (ルール) 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 予測する ツリー(木)がたくさんのフォレスト(森)なので ルールを読み取りにくい 計算量も増える けど、予測精度はよい。
  • 19. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 18 決定木とランダムフォレストの違い 1つのモデル(木)は 融通が利かない →汎化能力が低い 複数のモデル(森)は 融通が利く →汎化能力が高い 汎化能力が高いほど予測誤差は少ない。 複数モデルを作るにはデータ数が必要
  • 20. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 19 汎化能力とは 新しいデータでも正しく予測できる能力 ・・・・ 汎化能力 汎化能力が高い = 汎化誤差が少ない 汎化誤差 ・・・ 新しいデータに当てはめたときの誤差 汎化誤差=モデル構築データ選び方+手法の適合性・パラメタ+ノイズ モデル構築データの誤差を少なくするには ・・・ 1:データを増やす/手法を変える 2:多数のトレーニングを行う
  • 21. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 20 モデル開発のプロセス データ収集 モデル開発 モデル評価 実装 精度評価
  • 22. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 21 Step1:データ収集 モデル開発用データを定義する。 事前確認 モデル開発単位の定義 ターゲットの定義 ターゲットの評価期間 データ(変数)加工 データ抽出(サンプリング)
  • 23. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 22 Step1:データ収集 ■事前確認 モデル開発に必要なデータ項目・取得可能なデータ項目の確認 ・モデル開発対象(ターゲット)の定義 ・スコアリング時点で取得できる情報 ・取得できるデータの保存期間 ・季節性の影響 ・リレーションキー ・ユニーク条件 ・モデル開発対象とスコアリング対象の差 ・マスターコードの追加・変更
  • 24. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 23 ■モデル開発単位の定義 1つのモデルだけで対象者全員をスコアリングする 対象を分類してそれぞれのモデルでスコアリングする 一般にモデルの開発単位(セグメント)は、1つのモデルでス コアリングするよりも特徴的な行動などで対象を分類し、類似 する集団毎にモデルを開発する方が精度が上がると言われて います。 Step1:データ収集
  • 25. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 24 ■ターゲットの定義 Step1:データ収集 少ないターゲット数で開発したモデルは、発生傾向が集団 ではなく個で表現されるモデルになるため、予測精度が不安 定になることが多い。 ターゲット件数 OK 対応検討 ターゲット定義緩和 (その他ウェイト調整など) 十分 不足
  • 26. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 25 Step1:データ収集 ■データ(変数)加工 ■欠損値の取り扱い方法の検討 除去 補間(中央値、平均値、etc) ■定性データ 属性の最新データ ■定量データ 一定期間の平均 差分、比率の算出など ■グルーピング(離散化)
  • 27. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 26 データ分割 変数選択 モデルの作成 Step2:モデル開発
  • 28. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 27 ■データ分割 モデル開発データをモデル開発用の学習データとモデル評 価用の検証データに分割し、過学習を抑止する。 モデル 開発データ 学習データ(70%) 検証データ(30%) モデル作成 モデル当てはめ Step2:モデル開発
  • 29. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 28 ■変数選択 モデルの説明変数を以下の変数選択法を指定して選択 することができる。 減少法(Backward) 増加法(Forward) ステップワイズ法(Stepwise) なし(None) モデルの説明変数は必要以上に増やせば増やすほど学習 データのノイズにまでフィットしてしまうため学習データでの当て はまりがよくても汎化誤差が増える。
  • 30. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 29 ■変数選択 減少法(Backward) 全ての候補変数をモデル式に追加し、そこから設定した有意水準で 有意でないと判断した変数をモデルから除去する。 一度モデルから除かれた変数は二度とモデルに含まれない。 設定した有意水準で有意でない変数がなくなるまで変数の除去が 続けられる。 増加法(Forward) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルに追加した変数は二度とモデルから外されない。 設定した有意水準で有意となる変数がなくなるまで変数の追加が続 けられる。
  • 31. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 30 ■変数選択 ステップワイズ法(Stepwise) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルから追加した変数であってもモデル内で効果が無いと判 断された場合は除去する。 次元削減(主成分分析) 変数クラスタリング
  • 32. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 31 ■変数選択 (自動)変数選択法は非常にパワフルで明快な方法であるため、 開発者がその結果に頼ってしまうという間違いに陥りやすい。 極端に言えば、(自動)変数選択法の結果を完全に信用していい 状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関 する知識が全く無い場合だけである。 通常、開発者は何らかの仮説、理論、既知の知識を持っている。 (自動)変数選択法はあくまでも補助的な情報として用いるべきで あり、開発者の経験からくる仮説、理論、既知の知識などを変数選 択の結果よりも優先することが薦められる。
  • 33. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 32 ■モデルの作成 モデルによって得手不得手があるので、分析によって使い分けるのがよい。 • 決定木 • 線形回帰 • ロジスティック回帰 • PLS回帰 • ニューラルネットワーク • 順序ロジット • 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。 • SVM (Support Vector Machine) • k近傍法 • k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら の多数決で自身のターゲット変数を予測するという簡単な方法 予測モデルの組合せ 予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。 • 多数決: 複数モデルの予測結果の多数決をとる。 • ブースティング: 重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。 複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。
  • 34. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 33 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■ターゲットの補足割合を評価 CAP曲線とは 横軸にターゲットの発生率の高い順(スコア昇順)に 10分位点(Decile)をとり、縦軸に各十分位点にお ける累積ターゲット発生率(ターゲット補足率)をとっ たプロットに示される曲線。 モデルに全く説明力が無く、予測ターゲット発生率と実 際のターゲット発生率に関係がない場合、どのような予 測発生率のレベルであろうと、同じ割合で実際のター ゲットが含まれているため、CAP曲線は45度線上にプ ロットされる。 またモデルの説明力が高い場合は、低い十分位点で 多くのターゲットが補足できている曲線がプロットされる。
  • 35. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 34 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■モデルの判別精度を評価 ⇒KS(Kolmogorov Smirnov)値を確認 KS値とは 横軸にスコア値(昇順)、縦軸に実績のターゲット、非ターゲット別にスコアの低い順 からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど 判別力が高い。 Good累積構成 比 Bad累積構成比 KS値
  • 36. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 35 ROC曲線 ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。 • AUCは最小で0, 最大で1となる。 • 完璧な(100%正解する)モデルでは、AUC=1.0となる。 • ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。 Step3:モデル評価
  • 37. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. R二乗 ターゲットは離散の場合でも連続の場合でも使える評価指標。 R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。 R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。 • R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予 測精度が高いことを表す。 • 100%正解するモデルでは、R二乗=1.0となる。 • 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。 Step3:モデル評価
  • 38. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 37 まとめ