Upload
Download free for 30 days
Login
Submit search
分析せよ!と言われて困っているあなたへの処方箋
24 likes
5,559 views
The Japan DataScientist Society
データサイエンティスト協会 勉強会2016 第2回目 講演資料
Data & Analytics
Read more
1 of 38
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
More Related Content
PDF
データサイエンスの全体像
The Japan DataScientist Society
PPTX
テスト分析入門 -「ゆもつよメソッド」を例に- #wacate
Kinji Akemine
PDF
ビジネスの現場のデータ分析における理想と現実
Takashi J OZAKI
PPTX
プロジェクトマネージャのための機械学習工学入門
Nobukazu Yoshioka
PDF
最適化超入門
Takami Sato
PDF
探索的テスト入門
H Iseri
PDF
ネットワーク ゲームにおけるTCPとUDPの使い分け
モノビット エンジン
PDF
経営のアジリティを支えるDevOpsと組織
Recruit Technologies
データサイエンスの全体像
The Japan DataScientist Society
テスト分析入門 -「ゆもつよメソッド」を例に- #wacate
Kinji Akemine
ビジネスの現場のデータ分析における理想と現実
Takashi J OZAKI
プロジェクトマネージャのための機械学習工学入門
Nobukazu Yoshioka
最適化超入門
Takami Sato
探索的テスト入門
H Iseri
ネットワーク ゲームにおけるTCPとUDPの使い分け
モノビット エンジン
経営のアジリティを支えるDevOpsと組織
Recruit Technologies
What's hot
(20)
PPTX
フィーチャモデルの描き方
H Iseri
PPTX
強化学習 と ゲーム理論 (MARL)
HarukaKiyohara
PDF
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
PDF
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
Akira Ikeda
PDF
LINE Developer Meetup in Tokyo #39 Presentation (modified)
Yasuharu Nishi
PDF
研究効率化Tips Ver.2
cvpaper. challenge
PDF
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
PDF
[論文紹介] 機械学習システムの安全性における未解決な問題
tmtm otm
PPTX
絶望と最後の希望
Tatsuya Sato
PPTX
QAアーキテクチャの設計による説明責任の高いテスト・品質保証
Yasuharu Nishi
PDF
研究発表を準備する(2022年版)
Takayuki Itoh
PDF
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
PDF
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
NTT DATA Technology & Innovation
PDF
数学で解き明かす深層学習の原理
Taiji Suzuki
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
PDF
失敗から学ぶ機械学習応用
Hiroyuki Masuda
PDF
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
Toshihiko Yamasaki
PPTX
WayOfNoTrouble.pptx
Daisuke Yamazaki
PDF
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
PDF
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
Tetsuya Kouno
フィーチャモデルの描き方
H Iseri
強化学習 と ゲーム理論 (MARL)
HarukaKiyohara
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
Akira Ikeda
LINE Developer Meetup in Tokyo #39 Presentation (modified)
Yasuharu Nishi
研究効率化Tips Ver.2
cvpaper. challenge
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
[論文紹介] 機械学習システムの安全性における未解決な問題
tmtm otm
絶望と最後の希望
Tatsuya Sato
QAアーキテクチャの設計による説明責任の高いテスト・品質保証
Yasuharu Nishi
研究発表を準備する(2022年版)
Takayuki Itoh
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
NTT DATA Technology & Innovation
数学で解き明かす深層学習の原理
Taiji Suzuki
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
失敗から学ぶ機械学習応用
Hiroyuki Masuda
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
Toshihiko Yamasaki
WayOfNoTrouble.pptx
Daisuke Yamazaki
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
Tetsuya Kouno
Ad
Viewers also liked
(7)
PDF
初心者のためのRとRStudio入門 vol.2
OWL.learn
PDF
Impact of big data on analytics
Capgemini
PDF
データサイエンスの全体像とデータサイエンティスト
The Japan DataScientist Society
PPTX
Big Data and the Art of Data Science
Andrew Gardner
PDF
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Data Science London
PDF
はじめての「R」
Masahiro Hayashi
PDF
Deep Learningと画像認識 ~歴史・理論・実践~
nlab_utokyo
初心者のためのRとRStudio入門 vol.2
OWL.learn
Impact of big data on analytics
Capgemini
データサイエンスの全体像とデータサイエンティスト
The Japan DataScientist Society
Big Data and the Art of Data Science
Andrew Gardner
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Data Science London
はじめての「R」
Masahiro Hayashi
Deep Learningと画像認識 ~歴史・理論・実践~
nlab_utokyo
Ad
Similar to 分析せよ!と言われて困っているあなたへの処方箋
(20)
PDF
(道具としての)データサイエンティストのつかい方
Shohei Hido
PDF
20180730 ds womens
Rio Kurihara
PDF
おしゃスタ@リクルート
Issei Kurahashi
PDF
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido
PPTX
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
PDF
tut_pfi_2012
Preferred Networks
PDF
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
The Japan DataScientist Society
PDF
データ分析コンペでスキルアップしよう.pdf
H. K
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
PDF
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
The Japan DataScientist Society
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
PDF
presentation for padoc
Masato Nakai
PDF
データサイエンティスト スキルチェックリスト
The Japan DataScientist Society
PDF
データサイエンティスト スキルチェックシート(抜粋版)
The Japan DataScientist Society
PDF
Casual datascience vol3
KazuhiroSato8
PDF
おしゃスタat銀座
Issei Kurahashi
PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
PDF
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
PPTX
Nttr study 20130206_share
Noriyuki Futatsugi
(道具としての)データサイエンティストのつかい方
Shohei Hido
20180730 ds womens
Rio Kurihara
おしゃスタ@リクルート
Issei Kurahashi
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
tut_pfi_2012
Preferred Networks
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
The Japan DataScientist Society
データ分析コンペでスキルアップしよう.pdf
H. K
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
The Japan DataScientist Society
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
presentation for padoc
Masato Nakai
データサイエンティスト スキルチェックリスト
The Japan DataScientist Society
データサイエンティスト スキルチェックシート(抜粋版)
The Japan DataScientist Society
Casual datascience vol3
KazuhiroSato8
おしゃスタat銀座
Issei Kurahashi
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
Nttr study 20130206_share
Noriyuki Futatsugi
More from The Japan DataScientist Society
(20)
PDF
学生から見たデータサイエンティスト
The Japan DataScientist Society
PDF
データサイエンティストの就労意識
The Japan DataScientist Society
PDF
AI・データ利活用継続の鍵はビジネススキル
The Japan DataScientist Society
PDF
コニカミノルタにおけるデータドリブンPLMの取り組み
The Japan DataScientist Society
PDF
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
The Japan DataScientist Society
PDF
エントリー層向けセミナー#04『はじめての最適化』
The Japan DataScientist Society
PDF
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
The Japan DataScientist Society
PDF
機械学習の先端センシングへの適用と展望
The Japan DataScientist Society
PDF
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
The Japan DataScientist Society
PDF
データサイエンティスト協会 会員制度説明資料
The Japan DataScientist Society
PDF
スキルチェックリスト 2017年版
The Japan DataScientist Society
PDF
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
The Japan DataScientist Society
PDF
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
The Japan DataScientist Society
PDF
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
The Japan DataScientist Society
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
PDF
データサイエンス業務と「ツール」
The Japan DataScientist Society
PDF
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
The Japan DataScientist Society
PDF
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
The Japan DataScientist Society
PDF
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
The Japan DataScientist Society
PDF
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
The Japan DataScientist Society
学生から見たデータサイエンティスト
The Japan DataScientist Society
データサイエンティストの就労意識
The Japan DataScientist Society
AI・データ利活用継続の鍵はビジネススキル
The Japan DataScientist Society
コニカミノルタにおけるデータドリブンPLMの取り組み
The Japan DataScientist Society
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
The Japan DataScientist Society
エントリー層向けセミナー#04『はじめての最適化』
The Japan DataScientist Society
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
The Japan DataScientist Society
機械学習の先端センシングへの適用と展望
The Japan DataScientist Society
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
The Japan DataScientist Society
データサイエンティスト協会 会員制度説明資料
The Japan DataScientist Society
スキルチェックリスト 2017年版
The Japan DataScientist Society
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
The Japan DataScientist Society
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
The Japan DataScientist Society
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
The Japan DataScientist Society
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
データサイエンス業務と「ツール」
The Japan DataScientist Society
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
The Japan DataScientist Society
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
The Japan DataScientist Society
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
The Japan DataScientist Society
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
The Japan DataScientist Society
分析せよ!と言われて困っているあなたへの処方箋
1.
データサイエンティスト協会 勉強会2016 第2回 分析せよ!と言われて困っているあなたへの処方箋 2016年9月28日 SAS Institute
Japan株式会社 辻 仁史
2.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 目的 社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、 その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。 分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。
3.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 3rdシンポジウム 2 今年のテーマは、「人工知能時代のデータサイエンティスト」 AIへの関心の高まりと利用事例が増える中、データサイエ ンティストに求められる新しい役割を浮き彫りにします 日時 : 2016年10月14日(金) 10:00~20:00 会場 : JPタワー ホール&カンファレンス(丸の内) 参加費: 事前割引 14,000円 当日 17,000円 http://www.datascientist.or.jp/symp/2016/
4.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 3 ケーススタディ
5.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 小型化への挑戦 4
6.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 5 https://www.koaglobal.com/product/ltcc-basic 製造プロセス
7.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 6 品質分析ビッグ データ 項目数:約 15,000 ①初期調査 収縮率変動は、原料生成後 特性Aの寄与が大きい。 ②メカニズム 原因は焼成温度? →温度管理はされている。 →実温のばらつき! ③試行 設定温度一定から実温管理 収束するがまだ変動あり。 試行1回目 ①改善後追加調 査 収縮率変動は、原料物性 値Cの寄与が見られる。 ②メカニズム 原因はD工程の加工? →物質E量のばらつき! ③試行 ロット毎に物質E量測定 Cのあわせ込み 試行2回目 分析サイクル
8.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 7 データサイエンティストのスキル
9.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 8 様々な分析サイクル 現状の課題把握 課題の対策 対策規定実行 現場改善
10.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 9 分析ができない原因を考察
11.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 10 分析が定着しない原因は・・・ なかなか分析が定着しない理由 ・目標設定 ・サイクルが回らない。 ・課題発見 ・関係者 ・データ整備 ・・・
12.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 11 効果があり着手しやすい領域を考える 共通分析情報基盤 現状把握 効率化・改善 創造・立案 ・定例レポート ・施策評価レポート ・予実レポート ビジネスインテリジェンス ビジネスアナリティクス ・ターゲティングモデル ・受注予測モデル ・発注最適化モデル ・構造解析モデル 予測値 レポート データ モデル開発 データ データサイエンス ・顧客セグメンテーション ・プロダクトマッピング ・レコメンド ・テキスト分析 分析用 データ 新情報 付加 ・ライフスタイル推定 企画実行評価
13.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 12 まずは予測モデルから
14.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 13 予測モデルを開発する前に考えるべきこと 課題の理解・目的の設定 何を予測(推定)できればうれしいのか? 課題をとりまく環境の理解 なぜそのような結果になるのか? 手法の理解 可読性・精度
15.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 14 予測モデルの例(教師付学習) 商談成約率 売上予測 不正検知 ネットワーク 故障
16.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 15 予測モデルのトレンド NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の 支障(遅延、運休など)を予測する。 NTTドコモ主催のコンペ 参加者 総勢48人の参加者が683種類の予測モデルを構築。 結果 精度1位 : ニューラルネットワーク 2位 : ランダムフォレスト、ニューラルネットワーク等のアンサンブル 3位 : 勾配ブースティング 上位はすべて 機械学習
17.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 16 モデル手法:決定木 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 過去データ(キャンペーン応募) 応募者の特徴(ルール) 応募者 60% 購入金額 3000円未満 3000円以上 30% 80% ツリー(木)が1本なのでルールを読み取りやすい
18.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 17 モデル手法:ランダムフォレスト 過去データ (キャンペーン応募) 応募者の特徴 (ルール) 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 予測する ツリー(木)がたくさんのフォレスト(森)なので ルールを読み取りにくい 計算量も増える けど、予測精度はよい。
19.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 18 決定木とランダムフォレストの違い 1つのモデル(木)は 融通が利かない →汎化能力が低い 複数のモデル(森)は 融通が利く →汎化能力が高い 汎化能力が高いほど予測誤差は少ない。 複数モデルを作るにはデータ数が必要
20.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 19 汎化能力とは 新しいデータでも正しく予測できる能力 ・・・・ 汎化能力 汎化能力が高い = 汎化誤差が少ない 汎化誤差 ・・・ 新しいデータに当てはめたときの誤差 汎化誤差=モデル構築データ選び方+手法の適合性・パラメタ+ノイズ モデル構築データの誤差を少なくするには ・・・ 1:データを増やす/手法を変える 2:多数のトレーニングを行う
21.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 20 モデル開発のプロセス データ収集 モデル開発 モデル評価 実装 精度評価
22.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 21 Step1:データ収集 モデル開発用データを定義する。 事前確認 モデル開発単位の定義 ターゲットの定義 ターゲットの評価期間 データ(変数)加工 データ抽出(サンプリング)
23.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 22 Step1:データ収集 ■事前確認 モデル開発に必要なデータ項目・取得可能なデータ項目の確認 ・モデル開発対象(ターゲット)の定義 ・スコアリング時点で取得できる情報 ・取得できるデータの保存期間 ・季節性の影響 ・リレーションキー ・ユニーク条件 ・モデル開発対象とスコアリング対象の差 ・マスターコードの追加・変更
24.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 23 ■モデル開発単位の定義 1つのモデルだけで対象者全員をスコアリングする 対象を分類してそれぞれのモデルでスコアリングする 一般にモデルの開発単位(セグメント)は、1つのモデルでス コアリングするよりも特徴的な行動などで対象を分類し、類似 する集団毎にモデルを開発する方が精度が上がると言われて います。 Step1:データ収集
25.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 24 ■ターゲットの定義 Step1:データ収集 少ないターゲット数で開発したモデルは、発生傾向が集団 ではなく個で表現されるモデルになるため、予測精度が不安 定になることが多い。 ターゲット件数 OK 対応検討 ターゲット定義緩和 (その他ウェイト調整など) 十分 不足
26.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 25 Step1:データ収集 ■データ(変数)加工 ■欠損値の取り扱い方法の検討 除去 補間(中央値、平均値、etc) ■定性データ 属性の最新データ ■定量データ 一定期間の平均 差分、比率の算出など ■グルーピング(離散化)
27.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 26 データ分割 変数選択 モデルの作成 Step2:モデル開発
28.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 27 ■データ分割 モデル開発データをモデル開発用の学習データとモデル評 価用の検証データに分割し、過学習を抑止する。 モデル 開発データ 学習データ(70%) 検証データ(30%) モデル作成 モデル当てはめ Step2:モデル開発
29.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 28 ■変数選択 モデルの説明変数を以下の変数選択法を指定して選択 することができる。 減少法(Backward) 増加法(Forward) ステップワイズ法(Stepwise) なし(None) モデルの説明変数は必要以上に増やせば増やすほど学習 データのノイズにまでフィットしてしまうため学習データでの当て はまりがよくても汎化誤差が増える。
30.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 29 ■変数選択 減少法(Backward) 全ての候補変数をモデル式に追加し、そこから設定した有意水準で 有意でないと判断した変数をモデルから除去する。 一度モデルから除かれた変数は二度とモデルに含まれない。 設定した有意水準で有意でない変数がなくなるまで変数の除去が 続けられる。 増加法(Forward) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルに追加した変数は二度とモデルから外されない。 設定した有意水準で有意となる変数がなくなるまで変数の追加が続 けられる。
31.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 30 ■変数選択 ステップワイズ法(Stepwise) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルから追加した変数であってもモデル内で効果が無いと判 断された場合は除去する。 次元削減(主成分分析) 変数クラスタリング
32.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 31 ■変数選択 (自動)変数選択法は非常にパワフルで明快な方法であるため、 開発者がその結果に頼ってしまうという間違いに陥りやすい。 極端に言えば、(自動)変数選択法の結果を完全に信用していい 状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関 する知識が全く無い場合だけである。 通常、開発者は何らかの仮説、理論、既知の知識を持っている。 (自動)変数選択法はあくまでも補助的な情報として用いるべきで あり、開発者の経験からくる仮説、理論、既知の知識などを変数選 択の結果よりも優先することが薦められる。
33.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 32 ■モデルの作成 モデルによって得手不得手があるので、分析によって使い分けるのがよい。 • 決定木 • 線形回帰 • ロジスティック回帰 • PLS回帰 • ニューラルネットワーク • 順序ロジット • 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。 • SVM (Support Vector Machine) • k近傍法 • k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら の多数決で自身のターゲット変数を予測するという簡単な方法 予測モデルの組合せ 予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。 • 多数決: 複数モデルの予測結果の多数決をとる。 • ブースティング: 重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。 複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。
34.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 33 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■ターゲットの補足割合を評価 CAP曲線とは 横軸にターゲットの発生率の高い順(スコア昇順)に 10分位点(Decile)をとり、縦軸に各十分位点にお ける累積ターゲット発生率(ターゲット補足率)をとっ たプロットに示される曲線。 モデルに全く説明力が無く、予測ターゲット発生率と実 際のターゲット発生率に関係がない場合、どのような予 測発生率のレベルであろうと、同じ割合で実際のター ゲットが含まれているため、CAP曲線は45度線上にプ ロットされる。 またモデルの説明力が高い場合は、低い十分位点で 多くのターゲットが補足できている曲線がプロットされる。
35.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 34 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■モデルの判別精度を評価 ⇒KS(Kolmogorov Smirnov)値を確認 KS値とは 横軸にスコア値(昇順)、縦軸に実績のターゲット、非ターゲット別にスコアの低い順 からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど 判別力が高い。 Good累積構成 比 Bad累積構成比 KS値
36.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 35 ROC曲線 ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。 • AUCは最小で0, 最大で1となる。 • 完璧な(100%正解する)モデルでは、AUC=1.0となる。 • ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。 Step3:モデル評価
37.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. R二乗 ターゲットは離散の場合でも連続の場合でも使える評価指標。 R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。 R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。 • R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予 測精度が高いことを表す。 • 100%正解するモデルでは、R二乗=1.0となる。 • 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。 Step3:モデル評価
38.
Copyright © 2016
The Japan DataScientist Society. All Rights Reserved. 37 まとめ