過去の記事では、因果推論の中で重要な手法の一つである IPW の概要や疑問点について整理してきました。

今回は、 IPW と双璧をなす重要な手法である Standardization（標準化）について簡単に紹介します。

これまで同様、what if book を中心に議論していきます。

目次はこちらです。以前の記事よりはボリュームを抑えています。

記事のゴール
新規性
what if book 2章で紹介された標準化のおさらい
what if book 2章の標準化と13章の parametric g-formula の対応
- 13章のおさらい
- 2章との対応
おまけ: conditional effect と標準化
まとめ

what if book の主張を紹介した後で、数式部分を少しだけ補足します。

記事のゴール

本記事では、single time point exposure の条件下での平均因果効果の推定にあたって、以下の主張を行うことをゴールにします:

what if book 2章の標準化と13章の parametric g-formula は、 outcome model について共変量で期待値をとっているという意味で統一的に見ることができるが、共変量の分布の扱い方によっては推定結果に違いが生じうる

Notation や仮定は冒頭に紹介した過去の記事と同じものを使います。

新規性

記事の主張について明確に述べている資料は見つからなかったので、一応それを新規性とします（ほんの少し式を補足しただけですが）。

what if book 2章で紹介された標準化のおさらい

標準化は、 what if book では2章と13章で登場します。

ここでは、2章の主張をおさらいします。

2章では、共変量が離散の場合に、以下のように potential outcome を推定できることが紹介されています:

\begin{eqnarray} \mathbb{E}[Y^{(a)}] &=& \sum_{l} \mathbb{E}[Y^{(a)} \mid L=l] \ \Pr[L=l] \ \ \ (\because \text{definition of marginalization}) \\ &=& \sum_{l} \mathbb{E}[Y^{(a)} \mid L=l, A=a] \ \Pr[L=l] \ \ \ (\because \text{conditional exchangeability}) \\ &=& \sum_{l} \mathbb{E}[Y \mid L=l, A=a] \ \Pr[L=l] \ \ \ (\because \text{consistency}) \tag{1} \end{eqnarray}

最後の行の summation の中にある期待値と確率分布をそれぞれ観測データから推定すればよいということになり、以下の式で最終的な potential outcome の推定を行います:

\begin{eqnarray} \sum_{l} \hat{\mathbb{E}}[Y \mid L=l, A=a] \ \hat{\Pr}[L=l] \tag{2} \end{eqnarray}

what if book 2章の標準化と13章の parametric g-formula の対応

次に、what if book 2章と13章の対応を考え、それらを統一的に見た上で、違いが生じうる部分について簡単に考察します。

13章のおさらい

13章では以下の2段階で議論が展開されています:

標準化は、outcome model について共変量で期待値をとる手法として考えられる
outcome regression の予測結果について sample mean をとることでその期待値をいい感じに推定できる

打ち切り変数 $C$ については無視した上で、議論を追っていきます。

共変量で期待値をとっているという部分は以下の式で書けます:

\begin{eqnarray} \mathbb{E}[Y^{(a)}] &=& \mathbb{E}_{l} [\mathbb{E}[Y^{(a)} \mid L=l]] \ \ \ (\because \text{definition of marginalization}) \\ &=& \mathbb{E}_{l} [\mathbb{E}[Y^{(a)} \mid L=l, A=a]] \ \ \ (\because \text{conditional exchangeability}) \\ &=& \mathbb{E}_{l} [\mathbb{E}[Y \mid L=l, A=a]] \ \ \ (\because \text{consistency}) \tag{3} \end{eqnarray}

$\mathbb{E}_{l}$ によって共変量で期待値をとっていることを表現しました。

2章の標準化では共変量が離散の場合の表現しか与えられていませんでしたが、期待値の形で書くことで、共変量が連続の場合も表現できるようになりました。

その上で、 $Y$ の期待値については outcome regression によって推定を行い、共変量で期待値をとる部分については観測データによる経験近似を行う以下の式が紹介されています:

\begin{eqnarray} \frac{1}{n} \sum_{i=1}^{n} \hat{\mathbb{E}}[Y \mid L=L_i, A=a] \tag{4} \end{eqnarray}

これが parametric g-formula です。

outcome のモデルが特定されていて、かつ観測データが i.i.d. で得られていることを仮定すれば、求めたい期待値をいい感じに推定できそうです。

共変量については観測データ $L_i$ の値を使い、処置については興味のある処置 $a$ の値を固定している（処置については観測データではない）というところが肝になります。

2章との対応

what if book を読まれた方の中には、2章の標準化と13.3節の parametric g-formula の数式（式2と式4）間の対応がピンと来ていない方がいるかもしれないので、簡単に説明します。

結論としては、共変量の分布をどのように扱うかによって、同値になったりならなかったりする という話になります。

共変量が離散の場合、共変量の分布は以下のように推定されることが多いでしょう（ただの集計です）:

\begin{eqnarray} n_l &:=& \sum_{i=1}^{n} I(L_i, l) \\ \hat{\Pr}[L=l] &=& \frac{n_l}{n} \tag{5} \end{eqnarray}

このとき、式2は以下のように展開できます:

\begin{eqnarray} \sum_{l} \hat{\mathbb{E}}[Y \mid L=l, A=a] \ \hat{\Pr}[L=l] &=& \sum_{l} \hat{\mathbb{E}}[Y \mid L=l, A=a] \ \frac{n_l}{n}\\ &=& \sum_{l} \frac{\sum_{i=1}^n I(L_i, l)\hat{\mathbb{E}}[Y \mid L=L_i, A=a]}{n_l} \ \frac{n_l}{n}\\ &=& \sum_{l} \frac{\sum_{i=1}^n I(L_i, l)\hat{\mathbb{E}}[Y \mid L=L_i, A=a]}{n}\\ &=& \frac{1}{n} \sum_l \sum_{i=1}^n I(L_i, l)\hat{\mathbb{E}}[Y \mid L=L_i, A=a] \\ &=& \frac{1}{n} \sum_{i=1}^n \hat{\mathbb{E}}[Y \mid L=L_i, A=a] \tag{6} \end{eqnarray}

最後の行は式4と全く同じ形になるので、式5のように共変量の分布を推定した場合、2章の標準化と13章の parametric g-formula は同じものとして対応がとれることがわかります。

逆に、2章の標準化にあたって共変量の分布の推定方法を変えた場合（例: 適当な prior を置いてベイズ推定する）、parametric g-formula による推定結果とは異なる結果が得られうることがわかります。

同様に、共変量が連続であるときに、「共変量の分布を推定した上でその分布を明示的に使って期待値をとるという手法」と「parametric g-formula のように共変量の分布を推定しない手法」を比較すると、やはり推定結果が異なりうると言えるでしょう。

おまけ: conditional effect と標準化

標準化は marginal effect を推定するための手法であるため、基本的には conditional effect の推定には使えません*1。

一般に、 conditional effect を推定する際には、outcome regression や Marginal Structural Model や g-estimation を利用することになると思われます。

まとめ

what if book の2章と13章の数式を繋ぐことを目的に記事を書いてみましたが、意外と非自明なことが少なく、かなり内容の薄い記事になってしまいました。

もし同じような引っかかりを感じた方の理解の助けになれば幸いです。

*1:marginal effect を推定するために、 conditional effect を推定する手法の一つである outcome regression に修正を加えたものが標準化という認識です

果物をいっぱい食べたい

統計、機械学習周りの勉強や提案やOSS開発の記録

因果推論における standardization と parametric g-formula の関係性