統計的因果推論への招待
- 因果構造探索を中心に -
滋賀大学 データサイエンス学部
大阪大学 産業科学研究所
理化学研究所 AIPセンター
清水昌平
出発点
Correlation does not imply causation
相関があるからと言って
因果関係があるとは限らない
3
Messerli, (2012), New England Journal of Medicine
ノ
ー
ベ
ル
賞
受
賞
者
の
数
相関係数: 0.79
P値 < 0.0001
チョコレート消費量
相関関係と因果関係のギャップ
4
チョコ 賞
?チョコ 賞
or
GDP GDP
チョコ 賞
or
GDP
相関係数 0.79
P値 < 0.0001
複数の因果関係が
同じ相関関係を与える
賞
潜在共通原因 潜在共通原因 潜在共通原因
ギャップ
相関と因果の違い
• 相関関係
• チョコ消費量が多い国ほど、受賞者が多い
• チョコ消費量が多い国と少ない国
の受賞者数を比較
• 異なる国の違い
• 因果関係
• チョコ消費量を増やすと、受賞者が増える
• 介入して、
ある国のチョコ消費を増やす場合とそのままの場合
の受賞者を比較
• 同じ国の違い
• 介入効果
• チョコ消費量を増やすと、受賞者数がどのくらい増えるか
(減るか)
5
ランダム化実験
最も解析がシンプルになる方法
• (患者)集団をランダムにふたつに分ける
6
薬
治癒の
割合
治癒の
割合
なし
などなどたくさん
違いは、投薬の有無のみ
≠?
ランダム化実験しないとき
• 重症な患者に投薬する傾向
7
薬
治癒の
割合
治癒の
割合
なし
などなどたくさん
≠?
重症多め
少なめ
投薬の有無以外にも重症度が違う
重症度の高低で分ける(層別)
• 重症の人のみ集める (軽症の人のみ集める)
8
薬
治癒の
割合
治癒の
割合
なし
などなどたくさん
≠?
みな重症
違いは、投薬の有無のみ
• 重症かで投薬するかが決まり
• 重症かで治癒するかも決まる
• 相関関係と因果関係のギャップを生み出す
• Correlation does not imply causation
重症度は共通原因
9
薬 治癒
重症度
潜在共通原因
誤差 誤差
共通原因を観測して「調整」(層別)
• 線形性を仮定
• 「治癒」を「薬」に単回帰
• 「薬」と「重症度」に重回帰するとゼロになる
10
X:薬 Y:治癒
Z:重症度
潜在共通原因
誤差 誤差yyz
xxz
ezy
ezx




 
0
)var()var(
var
)var(
),cov(
2



xxz
xzyz
ez
z
x
xy


xz yz
回帰係数
共通原因は複数あることが普通
• wとzを観測して調整
• 回帰の説明変数に入れる
• vは入れなくていい
• 因果グラフを基に、
どれを入れるか判断
• バックドア基準
• 因果構造を表すグラフが
因果グラフ
11
x y
zw
u
v
q
図を修正しました
因果グラフが不明なことが多い
• 事前知識が足りない
• 仮説が十分ない
• データの助けがほしい
• データから因果グラフを推測: 因果構造探索
12
データ行列X
観測
変
数
推測
x4
x1
x5
x6
x3
x2
+仮定
トークの概要
• 統計的因果推論のフレームワーク
• 因果関係を数式で表現
• 因果グラフを基にした介入効果の推定
• 因果グラフの推測
13
因果推論の
フレームワーク
基本となる概念: 反事実
• もし○○だとしたらどうなる?
• 「もしも薬を飲ませたとしたら、治癒するか」
• 「もしも飲まないでもらったとしたら、治癒するか」
15
薬
治癒
治癒せずなし

ゼウス
ゼウス(個体)について、薬の治癒への介入効果あり
因果推論の根本問題
(Holland, 1986, JASA)
• 個体における因果は、一般には同定できない
• 観測できるのはどちらか一方
16
薬
治癒
?なし

ゼウス
薬を飲ませてしまったら、
薬を飲まないでもらった場合にどうなるかは不明
代わりに、集団における因果
• もし集団全員に薬を飲ませた場合
• もし集団全員に薬を飲まないでもらった場合
17
薬
治癒の
割合
治癒の
割合
なし
?
集団
やはり観測できるのはどちらか一方
ランダムに分けることで模擬
• メンバーは違うが、集団としては同じ
• 男女比、重症の人の割合、…などなど同じ
18
治癒の
割合
治癒の
割合
なし
?
集団
違いは、投薬の有無のみ
Rubinの
フレームワーク
Imbens and Rubin, 2015
新たな変数を導入
• 潜在反応モデル
• 2つの場合に治癒するかを表す変数を導入
20
ゼウス
1xy
ゼウス
0xy
薬
なしゼウス
x=1
x=0
D. B. Rubin. Journal of Educational Psychology, 1974
潜在反応
潜在反応の分布が違うか
• 確率変数 (潜在反応)
21
 1xyp
01  xx yy と
 0xyp
    )(01 のひとつの原因はなら, yxypyp xx  
実際には両方のデータはとれない
22
x=1 x=0
ゼウス 欠測
アポロン 欠測
⋮ ⋮⋮
   は不明と 01  xx ypyp
らが独立」が成り立つなとが独立」かつ「と「 xyxy xx 01 
   
   xypyp
xypyp
xx
xx
|
|
00
11




欠測データ
欠測データから
推定可能
(ランダム化実験では成り立つ)
11 xy
00 xy
Pearlの
フレームワーク
J. Pearl. Causality, 2nd ed. 2009
doという介入を表す記号を導入
• 介入do(x=1)をした集団と
• 介入do(x=0)をした集団を比較
24
 )1(| xdoyp
 )0(| xdoyp
    )()1(|)1(| のひとつの原因はなら, yxxdoypxdoyp 
介入をした集団とは
• 介入前のデータ生成過程を方程式で表す
• 介入do(x=1)すると新しい集団ができる
25
 
),,(
,
yy
xx
ezxgy
ezgx

 x
y
xe
ye
z
構造方程式 因果グラフ
),,(
1
yy ezxgy
x

 x
yye z
構造方程式 因果グラフ
1
 )1(| xdoyp
定量化: 平均因果効果
• 変数xの値を0から1に変化させた時に、
変数yの値が平均的にどのくらい変化するか
• 因果の大きさを知りたいなら
相関係数ではなく、平均因果効果を計算する
   01:)(   xx yEyE因果効果平均
26
     0|1|  xdoyExdoyE
予測との目的の違い
• 予測
• 何かを観測したとき、他の何かはどのくらいか?
• 薬を飲むのを観測した時、治癒する確率は?
• 推定したい量:
• 条件付き期待値: E( 治癒 | 薬=飲む)
• 因果
• 何かを変化させると、他の何かがどう変化するか
• 薬を飲ませると、治癒する確率はどう変わる?
• 推定したい量:
• 介入効果: E[ 治癒 | do( 薬 = 飲む ) ]
– E[ 治癒 | do( 薬 = 飲まない ) ]
27
因果グラフを
基にした介入効果の推定
林岳彦・黒木学, p.28-48, 2017星野崇宏, 2009
対処したいこと: 交絡
• 交絡: 介入後の分布と条件付き分布が異なる
• そのときは、平均も異なる
• 交絡が起きるのはいつか
• 潜在共通原因があるとき
• 選択バイアス
• 異質な集団の混合など
29
   1|)1(|  xypxdoyp
   1|)1(|  xyExdoyE
• 非巡回有向グラフを基に、どの変数で調整すべき
かを判定するための基準
• 十分条件の例: xの親をすべて
観測して調整
よりどころ: バックドア基準
30
x:薬 y:治癒
z: 重症度
共通原因
    
  
み治癒する人の割合軽症の人の中で薬を飲軽症の人の割合
み治癒する人の割合重症の人の中で薬を飲重症の人の割合
重症度薬飲む治癒
の親
重症度
の親




,|
,1|)1|(
EE
xxyEExdoyE x
バックドア基準を基に変数を選び調整すると、
条件付き分布から介入した後の分布を推定可能
ランダム化実験の因果グラフ
    1|1|  xyExdoyE
31
• xの値はランダムに決めるため、親変数なし
J. Pearl. Biometrika, 1995
M. H. Maathuis and D. Colombo. Annals of Statistics, 2015
バックドア基準の論文
共通原因 共通原因
(x=0の場合も同じ)
x:薬 y:治癒
z: 重症度
x:薬 y:治癒
z: 重症度
因果グラフの推測
因果探索
Spirtes, Glymour, Shceines, 2001 (2nd ed)
基本アイデア
• 因果グラフの構造に仮定をおく
• 非巡回有向グラフ
• 潜在共通原因なし(すべて観測されている)
• その場合に、観測変数の分布に成り立つはずの
特性を理論的に導く
• 実際にデータで成り立つ特性と照らし合わせて、
つじつまの(最も)合うグラフを推測
33
非巡回有向グラフを探索
• 3変数の場合の因果グラフ候補
• 識別性
• データから正しいグラフを見つけられるのか?
• 計算負荷
• 総当たりで探すのは困難(8変数ぐらいで不可能に)
34
35
因果的マルコフ条件
• 各変数 𝑥𝑖 は、親で条件付けると非子孫と独立
• 因果グラフの構造と条件付き独立性の対応
x3
x1
e3
e1
x2 e2
条件付き独立性
𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏
のみ
因果グラフ
J. Pearl and T. Verma. Proc. 2nd International Conference on
Principles of Knowledge Representation and Reasoning, 1991.
忠実性
• 変数間の独立性・条件付き独立性の
有無は、グラフ構造のみによって決まる
• 「因果的マルコフ条件から導かれる独立性」
のみが成り立つことを保証: 「例外」の排除
36
𝑥1 𝑥2
𝑥3
1
-1
1
0),cov( 31 xx
3213
212
11
exxx
exx
ex



因果的マルコフ条件を用いて探索
37
x3
x1
x2
成り立つ条件付き独立性
「 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏」
データXが
生成される
x3
x1
x2
x3
x1
x2
x3
x1
x2
x3
x1
x2
正
同じ条件付き独立性を
与える因果グラフを列挙
まとめる
復元できない
(識別できない)
ここまで
が限界
のみ
一意に決まる例
38
x3
x1
x2
データXが
生成される
正
復元できる
(識別できる) x3
x1
x2
は独立」と「 32 xx
ひとつだけ
成り立つ条件付き独立性
のみ
同じ条件付き独立性を
与える因果グラフを列挙
V字合流
同じ条件付き独立性を与える
因果グラフの集合: 同値類
• 非巡回有向グラフ
• 有向辺の有無は共通
• V字合流は共通
39
x3
x1
x2
x3
x1
x2
x3
x1
x2
x3 x2
x1
V字合流
x2とx3は独立
しかし,
x1で条件づける
と従属
2種類の探索アプローチ
• 制約ベースの探索
• 制約: 観測変数の条件付き独立性
• 仮説検定で有無
• 制約を満たす因果グラフ
• スコアベースの探索
• 制約を全体的に最も満たす因果グラフ
• 情報量基準(BICなど)で評価
• 目的
• 正しい因果グラフを含む同値類を見つける
40
P. Spirtes and C. Glymour. Social Science Computer Review, 1991.
D. M. Chickering. Journal of Machine Learning Research, 2002.
拡張など
• 巡回グラフを含めた同値類 (Richardson96UAI)
• 潜在共通原因を含めた同値類 (Spirtes+95UAI)
• 介入効果の範囲
41
x y
f
w z
x yw z
x y
f1
w z
f2
F. Eberhardt CRM Workshop 2016より
D. Malinsky and P. Spirtes, International J. Approximate Reasoning, 2017
M.H. Maathuis, M. Kalisch, and P. Bühlmann. Annals of Statistics, 2009
因果探索
関数形にも仮定を入れてみる
線形性や加法性など
清水昌平, 2017
Chap. 7: S. Shimizu
Chap. 8: K. Zhang and A. Hyvarinen
関数形にも仮定を入れてみる
• 因果的マルコフ条件以外にも利用可能な情報
• 条件付き独立性だけでなく分布の違いを利用
• 線形性+非ガウス分布
43
x1
x2
x1
x2
観測変数x1,x2の
分布が違う
(条件付き独立性に違いはない)
44
• 非巡回有向グラフ
• 関数形は線形
• 誤差変数𝑒𝑖は独立
• 誤差変数𝑒𝑖の分布が非ガウス連続分布
LiNGAMモデル
Linear Non-Gaussian Acyclic Model (Shimizu+06JMLR)
i
xx
jiji exbx
ij
  )(pa x1 x2
x3
21b
23b13b
2e
3e
1e
因果グラフ
識別可能
誤差変数𝑒𝑖の非ガウス性と独立性が
どう役立つか?
45
21212
11
exbx
ex

 x1
x2
e1
e2
正しいモデル
結果x2を原因x1に回帰 原因x1を結果x2に回帰
2
1212
1
1
12
2
)1(
2
)var(
),cov(
e
xbx
x
x
xx
xr



は独立と )1(
211 )( rex 
残差
 
)var(
var
)var(
),cov(
1
)var(
),cov(
2
121
1
2
2121
2
2
21
1
)2(
1
x
xb
e
x
xxb
x
x
xx
xr









はと )2(
121212 )( reebx 
2e
従属
021 b
ガウスだと
無相関=独立
• は最初: どの変数の子にもならない
• LiNGAMモデルにおいて
因果的順番が最初の変数の同定
(Shimizu et al., 2011, J. Machine Learning Research)
46
定理1: 「 は その残差
のどれとも独立 ( は 以外全部)」 「 は最初」
 
j
j
ji
i
j
i x
x
xx
xr
)var(
)cov( ,
jx
jxi j
jx
x3 x1 x2 x3 x1 x2
推定法の例
(Shimizu et al., 2011, J. Machine Learning Research)
• 因果順序の上から下へ順に推定
• 1番上を見つけて、残差を計算
• 残差もLiNGAMモデル
• 因果関係は変わらない
47











































2
1
3
2
1
3
2
1
3
03.10
005.1
000
e
e
e
x
x
x
x
x
x 0
0
0 0
0
0
00

























2
1
)3(
2
)3(
1
)3(
2
)3(
1
03.1
00
e
e
r
r
r
r 0 0
)3(
2r)3(
1rx3 x1 x2
0
相互情報量の差=非ガウス性の差
(Hyvarinen & Smith, 2013, J. Machine Learning Research)
• 正なら,𝑥1と𝑟2
(1)
の方が𝑥2と𝑟1
(2)
より独立 (𝑥1  𝑥2)
• 負なら,反対 (𝑥1 ← 𝑥2)
• 相互情報量の代わりに,1次元のエントロピーを計算
• Hを最大エントロピー近似 (Hyvarinen, 1999)
48





















)(
)(
)(
)(),(),( )2(
1
)2(
1
2)1(
2
)1(
2
1
)2(
12
)1(
21
rsd
r
HxH
rsd
r
HxHrxIrxI
49
• 「非線形+加法誤差」のモデル
• いくつかの非線形性と誤差変数の分布の組み合わせを
除いて識別可能
(Zhang+09UAI; Peters+14JMLR)
• 下から推定 (Mooij+ICML09)
非線形モデル
 
 
  iiiii
iiii
i
x
jiji
exffx
exfx
exfx
i





の親
の親
の親
1,
1
2,
-- Hoyer+08NIPS
-- Zhang+09UAI
1.
2.
3.
-- Imoto+02; Buhlman+14AS
拡張
巡回性のあるLiNGAMモデル
(Lacerda et al., UAI08)
• モデル:
• 識別性の条件
• B=[bij]の固有値の絶対値が1以下(平衡状態にある)
• ループ(閉路)が交わらない
• 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
51
i
ij
jiji exbx  
例えば、二変数の場合は識別できる
x1e1
x2e2
時系列
• サブサンプリング: 低解像度データ
• SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997)
• 非ガウス独立 (Hyvarinen et al., 2010, JMLR)
• 「間」を復元 (Gong et al., ICML15)
• 非定常 (Huang et al., IJCAI15)
• 平均や係数が時間的に滑らかに変化
)()()(
0
ttt
k
exBx  
 
52
i
ij
jij
Q
q
qiqi exbfx   1

• 潜在共通原因 を追加 (非ガウス)
潜在共通原因がある場合の
LiNGAMモデル (Hoyer+08IJAR)
53
ただし は独立(WLG)),,1( Qqfq 
qf
x1 x2 2e1e
1f 2f • 推定
• 潜在共通原因の数を陽に
(Hoyer+08IJAR;Henao+10JMLR)
• 陰に (Shimizu+14JMLR)
線形の場合は
独立としても一般性を失わない
独立な潜在共通原因
i
ij
jij
Q
q
qiqii exbfx   1

54
x1 x2 2e1e
1f
e 2f
e
x1 x2 2e1e
1
:1 f
ef 2
:2 f
ef
1f 2f
従属な潜在共通原因






























2
1
2221
11
2221
11
2
1
00
2
1
f
f
aa
a
e
e
aa
a
f
f
f
f
おわりに
因果推論は介入効果を推定
• 介入効果予測の汎化誤差を最小に
• 数理的フレームワーク: 因果関係を式で書く
• 因果グラフが既知の場合の介入効果の推定
• 因果グラフの推測
• 今後: 潜在共通原因がある場合への対処 (本丸)
• リンク集 (論文やコード)
• https://sites.google.com/site/sshimizu06/home/lingam
papers
56

More Related Content

PDF
因果探索: 基本から最近の発展までを概説
PDF
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
PDF
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PDF
『バックドア基準の入門』@統数研研究集会
PDF
星野「調査観察データの統計科学」第3章
PDF
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
PDF
因果推論の奥へ: "What works" meets "why it works"
PDF
比例ハザードモデルはとってもtricky!
因果探索: 基本から最近の発展までを概説
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
相関と因果について考える:統計的因果推論、その(不)可能性の中心
『バックドア基準の入門』@統数研研究集会
星野「調査観察データの統計科学」第3章
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
因果推論の奥へ: "What works" meets "why it works"
比例ハザードモデルはとってもtricky!

What's hot (20)

PDF
非ガウス性を利用した 因果構造探索
PDF
最適輸送入門
PDF
条件付き確率場の推論と学習
PDF
最適輸送の解き方
PDF
BlackBox モデルの説明性・解釈性技術の実装
PDF
21世紀の手法対決 (MIC vs HSIC)
PDF
数学で解き明かす深層学習の原理
PDF
研究効率化Tips Ver.2
PDF
Active Learning 入門
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
全力解説!Transformer
PDF
不均衡データのクラス分類
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
モデルではなく、データセットを蒸留する
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
非ガウス性を利用した 因果構造探索
最適輸送入門
条件付き確率場の推論と学習
最適輸送の解き方
BlackBox モデルの説明性・解釈性技術の実装
21世紀の手法対決 (MIC vs HSIC)
数学で解き明かす深層学習の原理
研究効率化Tips Ver.2
Active Learning 入門
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Neural networks for Graph Data NeurIPS2018読み会@PFN
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
最近のDeep Learning (NLP) 界隈におけるAttention事情
【論文紹介】How Powerful are Graph Neural Networks?
全力解説!Transformer
不均衡データのクラス分類
【メタサーベイ】数式ドリブン教師あり学習
モデルではなく、データセットを蒸留する
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
Ad

Similar to 統計的因果推論への招待 -因果構造探索を中心に- (20)

PDF
構造方程式モデルによる因果探索と非ガウス性
PDF
星野「調査観察データの統計科学」第1&2章
PPTX
Rで学ぶ観察データでの因果推定
PDF
第3回スキル養成講座 講義スライド
PDF
因果探索: 観察データから 因果仮説を探索する
PDF
効果測定入門 Rによる傾向スコア解析
PDF
統計的因果推論の有用性と活用例の紹介POL共催セミナー_20220826
PDF
傾向スコア:その概念とRによる実装
PDF
社会心理学とGlmm
PDF
20170225_Sample size determination
PPTX
生態学会自由集会での講演のプレビュー
PPTX
操作変数法の書き方_田淵貴大
PDF
統計学における相関分析と仮説検定の基本的な考え方とその実践
PPTX
R言語による簡便な有意差の検出と信頼区間の構成
PDF
明日から読めるメタ・アナリシス
PPTX
T検定と相関分析概要
PDF
外国語教育研究におけるRを用いた統計処理入門
PDF
「生物統計学」演習問題集
PDF
20170301_Epidemiological index_RakuwakaiOtowaGim
PDF
傾向スコアでみる ソーシャルネットワーク分析
構造方程式モデルによる因果探索と非ガウス性
星野「調査観察データの統計科学」第1&2章
Rで学ぶ観察データでの因果推定
第3回スキル養成講座 講義スライド
因果探索: 観察データから 因果仮説を探索する
効果測定入門 Rによる傾向スコア解析
統計的因果推論の有用性と活用例の紹介POL共催セミナー_20220826
傾向スコア:その概念とRによる実装
社会心理学とGlmm
20170225_Sample size determination
生態学会自由集会での講演のプレビュー
操作変数法の書き方_田淵貴大
統計学における相関分析と仮説検定の基本的な考え方とその実践
R言語による簡便な有意差の検出と信頼区間の構成
明日から読めるメタ・アナリシス
T検定と相関分析概要
外国語教育研究におけるRを用いた統計処理入門
「生物統計学」演習問題集
20170301_Epidemiological index_RakuwakaiOtowaGim
傾向スコアでみる ソーシャルネットワーク分析
Ad

More from Shiga University, RIKEN (7)

PDF
Causal discovery and prediction mechanisms
PDF
A non-Gaussian model for causal discovery in the presence of hidden common ca...
PDF
Non-Gaussian structural equation models for causal discovery
PDF
Discovery of Linear Acyclic Models Using Independent Component Analysis
PDF
A direct method for estimating linear non-Gaussian acyclic models
PDF
Linear Non-Gaussian Structural Equation Models
PDF
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Causal discovery and prediction mechanisms
A non-Gaussian model for causal discovery in the presence of hidden common ca...
Non-Gaussian structural equation models for causal discovery
Discovery of Linear Acyclic Models Using Independent Component Analysis
A direct method for estimating linear non-Gaussian acyclic models
Linear Non-Gaussian Structural Equation Models
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I

統計的因果推論への招待 -因果構造探索を中心に-