統計的因果推論への招待 -因果構造探索を中心に-

統計的因果推論への招待
- 因果構造探索を中心に -
滋賀大学データサイエンス学部
大阪大学産業科学研究所
理化学研究所 AIPセンター
清水昌平

出発点
Correlation does not imply causation

相関があるからと言って
因果関係があるとは限らない
3
Messerli, (2012), New England Journal of Medicine
ノ
ー
ベ
ル
賞
受
賞
者
の
数
相関係数: 0.79
P値 < 0.0001
チョコレート消費量

相関関係と因果関係のギャップ
4
チョコ賞
?チョコ賞
or
GDP GDP
チョコ賞
or
GDP
相関係数 0.79
P値 < 0.0001
複数の因果関係が
同じ相関関係を与える
賞
潜在共通原因潜在共通原因潜在共通原因
ギャップ

相関と因果の違い
• 相関関係
• チョコ消費量が多い国ほど、受賞者が多い
• チョコ消費量が多い国と少ない国
の受賞者数を比較
• 異なる国の違い
• 因果関係
• チョコ消費量を増やすと、受賞者が増える
• 介入して、
ある国のチョコ消費を増やす場合とそのままの場合
の受賞者を比較
• 同じ国の違い
• 介入効果
• チョコ消費量を増やすと、受賞者数がどのくらい増えるか
(減るか)
5

ランダム化実験
最も解析がシンプルになる方法
• (患者)集団をランダムにふたつに分ける
6
薬
治癒の
割合
治癒の
割合
なし
などなどたくさん
違いは、投薬の有無のみ
≠?

ランダム化実験しないとき
• 重症な患者に投薬する傾向
7
薬
治癒の
割合
治癒の
割合
なし
≠?
重症多め
少なめ
投薬の有無以外にも重症度が違う

重症度の高低で分ける(層別)
• 重症の人のみ集める (軽症の人のみ集める)
8
薬
治癒の
割合
治癒の
割合
なし
≠?
みな重症

• 重症かで投薬するかが決まり
• 重症かで治癒するかも決まる
• 相関関係と因果関係のギャップを生み出す
• Correlation does not imply causation
重症度は共通原因
9
薬治癒
重症度
潜在共通原因
誤差誤差

共通原因を観測して「調整」(層別）
• 線形性を仮定
• 「治癒」を「薬」に単回帰
• 「薬」と「重症度」に重回帰するとゼロになる
10
X:薬 Y:治癒
Z:重症度
潜在共通原因
誤差誤差yyz
xxz
ezy
ezx




 
0
)var()var(
var
)var(
),cov(
2



xxz
xzyz
ez
z
x
xy


xz yz
回帰係数

共通原因は複数あることが普通
• wとzを観測して調整
• 回帰の説明変数に入れる
• vは入れなくていい
• 因果グラフを基に、
どれを入れるか判断
• バックドア基準
• 因果構造を表すグラフが
因果グラフ
11
x y
zw
u
v
q
図を修正しました

因果グラフが不明なことが多い
• 事前知識が足りない
• 仮説が十分ない
• データの助けがほしい
• データから因果グラフを推測: 因果構造探索
12
データ行列X
観測
変
数
推測
x4
x1
x5
x6
x3
x2
＋仮定

トークの概要
• 統計的因果推論のフレームワーク
• 因果関係を数式で表現
• 因果グラフを基にした介入効果の推定
• 因果グラフの推測
13

因果推論の
フレームワーク

基本となる概念: 反事実
• もし○○だとしたらどうなる？
• 「もしも薬を飲ませたとしたら、治癒するか」
• 「もしも飲まないでもらったとしたら、治癒するか」
15
薬
治癒
治癒せずなし

ゼウス
ゼウス(個体)について、薬の治癒への介入効果あり

因果推論の根本問題
(Holland, 1986, JASA)
• 個体における因果は、一般には同定できない
• 観測できるのはどちらか一方
16
薬
治癒
?なし

ゼウス
薬を飲ませてしまったら、
薬を飲まないでもらった場合にどうなるかは不明

代わりに、集団における因果
• もし集団全員に薬を飲ませた場合
• もし集団全員に薬を飲まないでもらった場合
17
薬
治癒の
割合
治癒の
割合
なし
?
集団
やはり観測できるのはどちらか一方

ランダムに分けることで模擬
• メンバーは違うが、集団としては同じ
• 男女比、重症の人の割合、…などなど同じ
18
治癒の
割合
治癒の
割合
なし
?
集団

Rubinの
Imbens and Rubin, 2015

新たな変数を導入
• 潜在反応モデル
• 2つの場合に治癒するかを表す変数を導入
20
ゼウス
1xy
ゼウス
0xy
薬
なしゼウス
x=1
x=0
D. B. Rubin. Journal of Educational Psychology, 1974
潜在反応

潜在反応の分布が違うか
• 確率変数 (潜在反応)
21
 1xyp
01  xx yy と
 0xyp
    )(01 のひとつの原因はなら， yxypyp xx  

実際には両方のデータはとれない
22
x=1 x=0
ゼウス欠測
アポロン欠測
⋮ ⋮⋮
   は不明と 01  xx ypyp
らが独立」が成り立つなとが独立」かつ「と「 xyxy xx 01 
   
   xypyp
xypyp
xx
xx
|
|
00
11




欠測データ
欠測データから
推定可能
(ランダム化実験では成り立つ)
11 xy
00 xy

Pearlの
J. Pearl. Causality, 2nd ed. 2009

doという介入を表す記号を導入
• 介入do(x=1)をした集団と
• 介入do(x=0)をした集団を比較
24
 )1(| xdoyp
 )0(| xdoyp
    )()1(|)1(| のひとつの原因はなら， yxxdoypxdoyp 

介入をした集団とは
• 介入前のデータ生成過程を方程式で表す
• 介入do(x=1)すると新しい集団ができる
25
 
),,(
,
yy
xx
ezxgy
ezgx

 x
y
xe
ye
z
構造方程式因果グラフ
),,(
1
yy ezxgy
x

 x
yye z
構造方程式因果グラフ
1
 )1(| xdoyp

定量化: 平均因果効果
• 変数xの値を0から1に変化させた時に、
変数yの値が平均的にどのくらい変化するか
• 因果の大きさを知りたいなら
相関係数ではなく、平均因果効果を計算する
   01:)(   xx yEyE因果効果平均
26
     0|1|  xdoyExdoyE

予測との目的の違い
• 予測
• 何かを観測したとき、他の何かはどのくらいか？
• 薬を飲むのを観測した時、治癒する確率は？
• 推定したい量:
• 条件付き期待値: E( 治癒 | 薬=飲む)
• 因果
• 何かを変化させると、他の何かがどう変化するか
• 薬を飲ませると、治癒する確率はどう変わる？
• 推定したい量：
• 介入効果: E[ 治癒 | do( 薬 = 飲む ) ]
– E[ 治癒 | do( 薬 = 飲まない ) ]
27

因果グラフを
基にした介入効果の推定
林岳彦・黒木学, p.28-48, 2017星野崇宏, 2009

対処したいこと: 交絡
• 交絡: 介入後の分布と条件付き分布が異なる
• そのときは、平均も異なる
• 交絡が起きるのはいつか
• 潜在共通原因があるとき
• 選択バイアス
• 異質な集団の混合など
29
   1|)1(|  xypxdoyp
   1|)1(|  xyExdoyE

• 非巡回有向グラフを基に、どの変数で調整すべき
かを判定するための基準
• 十分条件の例: xの親をすべて
観測して調整
よりどころ: バックドア基準
30
x:薬 y:治癒
z: 重症度
共通原因
    
  
み治癒する人の割合軽症の人の中で薬を飲軽症の人の割合
み治癒する人の割合重症の人の中で薬を飲重症の人の割合
重症度薬飲む治癒
の親
重症度
の親




,|
,1|)1|(
EE
xxyEExdoyE x
バックドア基準を基に変数を選び調整すると、
条件付き分布から介入した後の分布を推定可能

ランダム化実験の因果グラフ
    1|1|  xyExdoyE
31
• xの値はランダムに決めるため、親変数なし
J. Pearl. Biometrika, 1995
M. H. Maathuis and D. Colombo. Annals of Statistics, 2015
バックドア基準の論文
共通原因共通原因
(x=0の場合も同じ)
x:薬 y:治癒
z: 重症度
x:薬 y:治癒
z: 重症度

因果グラフの推測
因果探索
Spirtes, Glymour, Shceines, 2001 (2nd ed)

基本アイデア
• 因果グラフの構造に仮定をおく
• 非巡回有向グラフ
• 潜在共通原因なし(すべて観測されている)
• その場合に、観測変数の分布に成り立つはずの
特性を理論的に導く
• 実際にデータで成り立つ特性と照らし合わせて、
つじつまの(最も)合うグラフを推測
33

非巡回有向グラフを探索
• 3変数の場合の因果グラフ候補
• 識別性
• データから正しいグラフを見つけられるのか？
• 計算負荷
• 総当たりで探すのは困難(8変数ぐらいで不可能に)
34

35
因果的マルコフ条件
• 各変数 𝑥𝑖 は、親で条件付けると非子孫と独立
• 因果グラフの構造と条件付き独立性の対応
x3
x1
e3
e1
x2 e2
条件付き独立性
𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏
のみ
因果グラフ
J. Pearl and T. Verma. Proc. 2nd International Conference on
Principles of Knowledge Representation and Reasoning, 1991.

忠実性
• 変数間の独立性・条件付き独立性の
有無は、グラフ構造のみによって決まる
• 「因果的マルコフ条件から導かれる独立性」
のみが成り立つことを保証: 「例外」の排除
36
𝑥1 𝑥2
𝑥3
1
-1
1
0),cov( 31 xx
3213
212
11
exxx
exx
ex




因果的マルコフ条件を用いて探索
37
x3
x1
x2
成り立つ条件付き独立性
「 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏」
データXが
生成される
x3
x1
x2
x3
x1
x2
x3
x1
x2
x3
x1
x2
正
同じ条件付き独立性を
与える因果グラフを列挙
まとめる
復元できない
(識別できない)
ここまで
が限界
のみ

一意に決まる例
38
x3
x1
x2
データXが
生成される
正
復元できる
(識別できる) x3
x1
x2
は独立」と「 32 xx
ひとつだけ
成り立つ条件付き独立性
のみ
同じ条件付き独立性を
与える因果グラフを列挙
V字合流

同じ条件付き独立性を与える
因果グラフの集合: 同値類
• 有向辺の有無は共通
• V字合流は共通
39
x3
x1
x2
x3
x1
x2
x3
x1
x2
x3 x2
x1
V字合流
x2とx3は独立
しかし，
x1で条件づける
と従属

2種類の探索アプローチ
• 制約ベースの探索
• 制約: 観測変数の条件付き独立性
• 仮説検定で有無
• 制約を満たす因果グラフ
• スコアベースの探索
• 制約を全体的に最も満たす因果グラフ
• 情報量基準(BICなど)で評価
• 目的
• 正しい因果グラフを含む同値類を見つける
40
P. Spirtes and C. Glymour. Social Science Computer Review, 1991.
D. M. Chickering. Journal of Machine Learning Research, 2002.

拡張など
• 巡回グラフを含めた同値類 (Richardson96UAI)
• 潜在共通原因を含めた同値類 (Spirtes+95UAI)
• 介入効果の範囲
41
x y
ｆ
w z
x yw z
x y
ｆ1
w z
ｆ2
F. Eberhardt CRM Workshop 2016より
D. Malinsky and P. Spirtes, International J. Approximate Reasoning, 2017
M.H. Maathuis, M. Kalisch, and P. Bühlmann. Annals of Statistics, 2009

因果探索
関数形にも仮定を入れてみる
線形性や加法性など
清水昌平, 2017
Chap. 7: S. Shimizu
Chap. 8: K. Zhang and A. Hyvarinen

関数形にも仮定を入れてみる
• 因果的マルコフ条件以外にも利用可能な情報
• 条件付き独立性だけでなく分布の違いを利用
• 線形性＋非ガウス分布
43
x1
x2
x1
x2
観測変数x1,x2の
分布が違う
(条件付き独立性に違いはない)

44
• 関数形は線形
• 誤差変数𝑒𝑖は独立
• 誤差変数𝑒𝑖の分布が非ガウス連続分布
LiNGAMモデル
Linear Non-Gaussian Acyclic Model (Shimizu+06JMLR)
i
xx
jiji exbx
ij
  )(pa x1 x2
x3
21b
23b13b
2e
3e
1e
因果グラフ
識別可能

誤差変数𝑒𝑖の非ガウス性と独立性が
どう役立つか？
45
21212
11
exbx
ex

 x1
x2
e1
e2
正しいモデル
結果x2を原因x1に回帰原因x1を結果x2に回帰
2
1212
1
1
12
2
)1(
2
)var(
),cov(
e
xbx
x
x
xx
xr



は独立と )1(
211 )( rex 
残差
 
)var(
var
)var(
),cov(
1
)var(
),cov(
2
121
1
2
2121
2
2
21
1
)2(
1
x
xb
e
x
xxb
x
x
xx
xr









はと )2(
121212 )( reebx 
2e
従属
021 b
ガウスだと
無相関＝独立

• は最初: どの変数の子にもならない
• LiNGAMモデルにおいて
因果的順番が最初の変数の同定
(Shimizu et al., 2011, J. Machine Learning Research)
46
定理1: 「はその残差
のどれとも独立 ( は以外全部)」「は最初」
 
j
j
ji
i
j
i x
x
xx
xr
)var(
)cov( ,
jx
jxi j
jx
x3 x1 x2 x3 x1 x2

推定法の例
(Shimizu et al., 2011, J. Machine Learning Research)
• 因果順序の上から下へ順に推定
• １番上を見つけて、残差を計算
• 残差もLiNGAMモデル
• 因果関係は変わらない
47











































2
1
3
2
1
3
2
1
3
03.10
005.1
000
e
e
e
x
x
x
x
x
x 0
0
0 0
0
0
00

























2
1
)3(
2
)3(
1
)3(
2
)3(
1
03.1
00
e
e
r
r
r
r 0 0
)3(
2r)3(
1rx3 x1 x2
0

相互情報量の差=非ガウス性の差
(Hyvarinen & Smith, 2013, J. Machine Learning Research)
• 正なら，𝑥1と𝑟2
(1)
の方が𝑥2と𝑟1
(2)
より独立 (𝑥1  𝑥2)
• 負なら，反対 (𝑥1 ← 𝑥2)
• 相互情報量の代わりに，1次元のエントロピーを計算
• Hを最大エントロピー近似 (Hyvarinen, 1999)
48





















)(
)(
)(
)(),(),( )2(
1
)2(
1
2)1(
2
)1(
2
1
)2(
12
)1(
21
rsd
r
HxH
rsd
r
HxHrxIrxI

49
• 「非線形＋加法誤差」のモデル
• いくつかの非線形性と誤差変数の分布の組み合わせを
除いて識別可能
(Zhang+09UAI; Peters+14JMLR)
• 下から推定 (Mooij+ICML09)
非線形モデル
 
 
  iiiii
iiii
i
x
jiji
exffx
exfx
exfx
i





の親
の親
の親
1,
1
2,
-- Hoyer+08NIPS
-- Zhang+09UAI
1.
2.
3.
-- Imoto+02; Buhlman+14AS

巡回性のあるLiNGAMモデル
(Lacerda et al., UAI08)
• モデル:
• 識別性の条件
• B=[bij]の固有値の絶対値が１以下(平衡状態にある)
• ループ(閉路)が交わらない
• 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
51
i
ij
jiji exbx  
例えば、二変数の場合は識別できる
x1e1
x2e2

時系列
• サブサンプリング: 低解像度データ
• SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997)
• 非ガウス独立 (Hyvarinen et al., 2010, JMLR)
• 「間」を復元 (Gong et al., ICML15)
• 非定常 (Huang et al., IJCAI15)
• 平均や係数が時間的に滑らかに変化
)()()(
0
ttt
k
exBx  
 
52

i
ij
jij
Q
q
qiqi exbfx   1

• 潜在共通原因を追加 (非ガウス)
潜在共通原因がある場合の
LiNGAMモデル (Hoyer+08IJAR)
53
ただしは独立(WLG)),,1( Qqfq 
qf
x1 x2 2e1e
1f 2f • 推定
• 潜在共通原因の数を陽に
(Hoyer+08IJAR;Henao+10JMLR)
• 陰に (Shimizu+14JMLR)

線形の場合は
独立としても一般性を失わない
独立な潜在共通原因
i
ij
jij
Q
q
qiqii exbfx   1

54
x1 x2 2e1e
1f
e 2f
e
x1 x2 2e1e
1
:1 f
ef 2
:2 f
ef
1f 2f
従属な潜在共通原因






























2
1
2221
11
2221
11
2
1
00
2
1
f
f
aa
a
e
e
aa
a
f
f
f
f

因果推論は介入効果を推定
• 介入効果予測の汎化誤差を最小に
• 数理的フレームワーク: 因果関係を式で書く
• 因果グラフが既知の場合の介入効果の推定
• 因果グラフの推測
• 今後: 潜在共通原因がある場合への対処 (本丸)
• リンク集 (論文やコード)
• https://sites.google.com/site/sshimizu06/home/lingam
papers
56

統計的因果推論への招待 -因果構造探索を中心に-

More Related Content

What's hot (20)

Similar to 統計的因果推論への招待 -因果構造探索を中心に- (20)

More from Shiga University, RIKEN (7)

統計的因果推論への招待 -因果構造探索を中心に-