仮説とデータ解析の関係2
仮説構築・仮説検証のための
統計と機械学習事例
~ irisデータを例に ~
岡野 道太郎
1
仮説構築・検証とデータ解析の関係
• 「仮説とデータ解析の関係」より
• それぞれの段階で使う機械学習・統計分析
技術が異なる
• 以下、各段階において、irisデータを例に説明
する
2
事例:irisデータ
普通の場合
• データの一部(全150件)
• Speciesは、setosa、
versicolor、virginicaの3種
類
ダミーデータ処理
• カテゴリーデータ処理
– Y1= setosaなら1、他0
– Y2= versicolorなら1、他0
3
1.仮説構築におけるデータ処理
• 事例:
– setosa、versicolor、
virginicaの分類基準を
知る
• 手法:
– 決定木を使う
• Rの処理
• 結果
4
install.packages("rpart", dependencies = TRUE)
library(rpart)
model <- rpart(Species ~ .,data=iris,minsplit = 5,cp=0.001)
print(model)
plot(model)
text(model,use.n=T,all=T)
仮説構築における統計・機械学習
• 目的変数が連続量
– 回帰
– 指標を作りたい場合は、主成分分析
• 目的変数がカテゴリーデータで、カテゴリー値全ケー
ス存在→因子を探す・仕組みを探す
– 機械学習:決定木
– 統計:探索的因子分析
• 目的変数がはっきりしない→グループ分け
– クラスタリング:階層型・非階層型(k-meansなど)
– ※例えば、故障予知の場合、故障していなければ、決定
木は使えない。しかし、クラスタリングして、外れているグ
ループを出すことはできる
5
2.仮説検証におけるデータ処理
• 事例
– Setosaの分類には、
Sepal.Length,Sepal.Widt
hは寄与しない
• 手法
– Sepal.Length,Sepal.Widt
hを含むモデルと含まな
いモデルでAICを比較
• 結果
– 寄与させないほうがAIC
が低い=寄与しない
• Rの処理
6
install.packages("lavaan")
library(lavaan)
#データよみこみ
data<-read.csv("iris1.csv",header=T)
#寄与しない場合のモデル
mymodel<-'
y1~x3+x4
y2~x3+x4
y1~~y1
y2~~y2
'
fit<-sem(mymodel,data)
summary(fit)
AIC(fit)
#寄与する場合のモデル
mymodel<-'
y1~x3+x4+x1+x2
y2~x3+x4+x1+x2
y1~~y1
y2~~y2
'
fit<-sem(mymodel,data)
summary(fit)
AIC(fit)
共分散構造分析の
方法を示すために
lavaanを使った。こ
の場合はロジス
ティック回帰を用い
るのが妥当。
ただし、今回はロジス
ティック回帰を行うと
詳しくはゼミで
仮説検証における統計・機械学習
• 主に統計的手法による検定
– カテゴリーデータなら:カイ2乗検定
– 平均値の差:t検定
• 目的変数と観測変数(測定できる変数)のみ
– 連続量:回帰(重回帰)分析
– 目的変数が、2値(T/F・生/死・0/1):ロジスティック回帰
– 質的データ:数量化1類
• 潜在変数がある
– パス解析:共分散構造分析・確証的因子分析
7
目的変数・観測変数・
潜在変数は仮説中に
明示されているはず!
3.仮説活用におけるデータ処理
• 事例
– 作成した決定木を活用し
て、予測してみる
• 手法
– Iris中、setosa、versicolor、
virginicaのデータ2つづつ
取り出し、予測する
– 残りのデータを学習データ
とする
• Rの処理
• 結果
8
check<-read.csv("ck.csv",header=T)
data<-read.csv("tr.csv",header=T)
library(rpart)
model <- rpart(Species ~ .,data=data,minsplit = 5,cp=0.001)
predict(model, check, decision.values = TRUE)
予測の評価をする場合には、実際
にはクロスバリデーションを行う。
詳しくはゼミで
仮説活用における統計・機械学習
• 決定木のrpartをsvmに変
えるとSVMになる
• ディープラーニングは
ちょっと大変
– テンソルフローの場合
• https://goo.gl/o8gBB1 の
80シート目~を参照
• 基本的に機械学習は計
算させると何かは出る
• ただし、
– 実務やコンテストであれば
正答率が上がっただけで
OKだが・・・
– 論文に書く場合、とくに
ディープラーニングは根拠
がわからないので、「やっ
てみたら、こうなりました」
としか書けない
• 論文として求めてもらえる
かは?
9
問題解決のためのデータ処理手順
• 以下の手順で考える
10
問題の明確化
データ分析の枠組みの決定
仮説を構築・検証・活用?
変数(目的変数・説明変数)
モデルはあるか?つくるのか?
→適切なデータ解析手法の決定
データ分析の計画と準備
手法に沿ったデータ収集・分析準備
データ分析の実施
データ収集→解析→まとめ→報告
アンケート作り方などは、ここ
ここが間違うと、以降の分析が
無駄になる

More Related Content

PPTX
仮説とデータ解析の関係
PDF
Yamadai.Rデモンストレーションセッション
PPTX
状態と状態遷移に着目したゴール指向要求分析手法の考察
PPTX
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
PDF
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
PDF
機械学習を用いた予測モデル構築・評価
PDF
マルチビッグデータの活用を支える DWHの作り方
ODP
Uom15.12 sotsuron
仮説とデータ解析の関係
Yamadai.Rデモンストレーションセッション
状態と状態遷移に着目したゴール指向要求分析手法の考察
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
機械学習を用いた予測モデル構築・評価
マルチビッグデータの活用を支える DWHの作り方
Uom15.12 sotsuron

More from Michitaro Okano (19)

PDF
データマネジメント概論
PDF
イノベーションについて
PDF
機械学習によるモデル自動生成の一考察 ー 決定表と決定木によるアプローチ -
PDF
高校・大学(院)の統計学の俯瞰図
PDF
ワクワクする商店・製品を作るには?
PDF
経営学の俯瞰図
PPTX
GSNを利用したゴール指向要求分析における要求間の依存性の検証手法に関する提案
PPTX
機械学習活用のための要求分析手法の研究 AI版酒屋倉庫問題のケース
PPTX
ゴール指向要求分析における不確かさの考察 ~ IoT・AIのケース ~
PPTX
IoT活用システムへのゴール指向要求分析の適用に関する考察
PPTX
AI・機械学習の活用におけるソフトウェア工学の今後の課題~ノンプログラミングで作成する予測APIの事例から~
PPTX
ゴール指向分析KAOSにおける依存性を考慮した要求抽出法の考察
PPTX
中小規模のIoT
PPTX
Rによるデータ分析手順入門
PPTX
ゴール指向要求分析における構成要素に着目した分解に関する一考察
PPTX
A study on the or decomposition of goal-oriented analysis using GSN
PPTX
要求分析におけるゴール抽出パターンについての考察
PPTX
要求獲得過程の観測と評価に関するツールの開発
PPTX
Ms wordでの効率的な文書作成
データマネジメント概論
イノベーションについて
機械学習によるモデル自動生成の一考察 ー 決定表と決定木によるアプローチ -
高校・大学(院)の統計学の俯瞰図
ワクワクする商店・製品を作るには?
経営学の俯瞰図
GSNを利用したゴール指向要求分析における要求間の依存性の検証手法に関する提案
機械学習活用のための要求分析手法の研究 AI版酒屋倉庫問題のケース
ゴール指向要求分析における不確かさの考察 ~ IoT・AIのケース ~
IoT活用システムへのゴール指向要求分析の適用に関する考察
AI・機械学習の活用におけるソフトウェア工学の今後の課題~ノンプログラミングで作成する予測APIの事例から~
ゴール指向分析KAOSにおける依存性を考慮した要求抽出法の考察
中小規模のIoT
Rによるデータ分析手順入門
ゴール指向要求分析における構成要素に着目した分解に関する一考察
A study on the or decomposition of goal-oriented analysis using GSN
要求分析におけるゴール抽出パターンについての考察
要求獲得過程の観測と評価に関するツールの開発
Ms wordでの効率的な文書作成
Ad

仮説とデータ解析の関係2