果物をいっぱい食べたい

統計、機械学習周りの勉強や提案やOSS開発の記録

調査観察データの統計科学 3.1の行間メモ

星野先生によって書かれた調査観察データの統計科学(以下本書と呼ぶ)を読んでいて、3.1節の式の導出に少し困ったので、メモを残します。 脚注に書いてある通り、厳密な証明は見つけられていないので、知見のある方はご指摘いただけると幸いです。

目次はこちらです:

3.1節の概要と本記事の目的

3.1節でやることはざっくり以下の三つです。

  1. バランシングスコアという概念を定義
  2. バランシングスコアを条件づけたときに、割り当て  z \in \{0, 1\}潜在的な結果変数  y_1, y_0 が独立になることを示す
  3. バランシングスコアの関数として傾向スコアを紹介

本記事では、バランシングスコアの必要条件についての記述、ならびにバランシングスコアを条件づけたときの独立性について補足します。

バランシングスコアの定義

共変量を  x とします。本書P60によると、バランシングスコア  b(x) とは、

それを条件付けすることにより、共変量と割り当てが独立になるような「共変量の関数」である

と定義されています。数式で書くと

 x \perp\!\!\!\perp z \mid b(x) \tag{3.1}

を満たす関数のことです。

バランシングスコアの必要条件

本書では、バランシングスコアの必要条件として、関数  g を使って  p(z=1 \mid x) = g(b(x)) と表現できることを挙げています。 その根拠として、以下の式の三つ目の等号成立条件において、上記のような表現が成立することが必要だから、というように書かれています。

\begin{eqnarray} p(z=1\mid b(x)) &=& \int p(z=1\mid x, b(x)) p(x\mid b(x)) dx \\ &=& \mathbb{E}_{x\mid b(x)} [p(z=1\mid x) ] \\ &=& \mathbb{E}_{x\mid b(x), \ p(z=1\mid x)} [p(z=1\mid x) ] \\ &=& p(z=1\mid x)\\ &=& p(z=1\mid x, b(x)) \tag{3.2} \end{eqnarray}

結論としては、この説明は必要条件ではなく十分条件の証明になっていると考えられます *1

本書の中では細かい式変形の行間が省略されているため、解説を試みます。

まず、一つ目の等式は、  x で条件つき確率を周辺化しています。こちらは周辺化の定義から自明かと思います。

次に、二つ目の等式は、  b(x) x の関数であることにより、  b(x) を条件づけから外せることを利用します *2

三つ目の等式は、もし  p(z=1 \mid x) = g(b(x)) と表現できたならば、二つ目の等式の条件づけを外したときと同じロジックで  p(z=1 \mid x) を条件づけから外せることを利用します。等式の左側が条件づけから外れた式で、右側が条件づけられた式になります。

四つ目の等式は、  p(z=1 \mid x) を条件づけた状態で  p(z=1 \mid x) の期待値を取っているので、期待値を外せる(であろう)ことを利用します*3

最後の五つ目の等式は、二つ目の等式を再び適用します。

三つ目の等式以外は条件つき確率の定義から計算できるであろうことがわかったので、三つ目の等式が十分条件になることがわかるかと思います。

バランシングスコアを条件づけたときの独立性

ここでは、バランシングスコアを条件づけたときに、割り当て  z潜在的な結果変数  y_1, y_0 が独立になること、すなわち

 (y_1, y_0) \perp\!\!\!\perp z \mid b(x) \\\tag{3.3}

を示します。

まず、先ほどと同様のやり方で、条件つき確率を展開します。

\begin{eqnarray} p(z=1\mid y_1, y_0, b(x)) &=& \int p(z=1\mid y_1, y_0, x, b(x)) p(x\mid y_1, y_0, b(x)) dx \\ &=& \mathbb{E}_{x\mid y_1, y_0, b(x)} [p(z=1\mid y_1, y_0, x)] \tag{a} \end{eqnarray}

一つ目の等式は周辺化、二つ目の等式は  b(x) x の関数であることを利用しています。

ここで、本書の2.5節で定義された"強く無視できる割り当て"条件が成立している、すなわち

 (y_1, y_0) \perp\!\!\!\perp z \mid x \\ \tag{2.15}

が成立していると仮定すると、  p(z=1\mid y_1, y_0, x) = p(z=1\mid x) なので、

\begin{eqnarray} \mathbb{E}_{x\mid y_1, y_0, b(x)} [p(z=1\mid y_1, y_0, x)] &=& \mathbb{E}_{x\mid y_1, y_0, b(x)} [p(z=1\mid x)] \tag{b} \end{eqnarray}

となります。

最後に、バランシングスコアの必要条件 *4 によって  p(z=1 \mid x) = g(b(x)) と表現できること、ならびに  b(x) で条件づけた確率で  g(b(x)) の期待値をとるとき期待値は外せる(であろう)ことを利用すると、

\begin{eqnarray} \mathbb{E}_{x\mid y_1, y_0, b(x)} [p(z=1\mid x)] &=& p(z=1\mid x) \tag{c} \end{eqnarray}

となり、式(3.2)と合わせると以下が言えます。

\begin{eqnarray} p(z=1\mid y_1, y_0, b(x)) &=& p(z=1\mid x) &=& p(z=1\mid b(x)) \tag{d} \end{eqnarray}

これにより、式(3.3) が成立します。

最後に

一つ一つ式を追っていくと、これ自明っぽいけど本当に自明なのかな?と迷うところがいくつか出てきて、鍛錬が足りないなぁと実感しました。 期待値の式変形を一つ一つ解説した日本語資料は簡単には見つけられなかったので、本記事が何かしらの助けになると幸いです。

*1:こちらのブログでも指摘がされています: 「調査観察データの統計科学」3.1章 傾向スコアの数式メモ(前半) - 木曜不足

*2:厳密に証明した資料は見つからなかったので正しさは保証できないですが、ここではこれが成り立つとします

*3:これも厳密な証明は見つけられていないです。適切な資料をご存知の方はご教授いただけると幸いです

*4:式(3.2)では十分条件しか示せなかったのですが、ここでは必要条件が成立することを認めるとします。気になる方は紹介されている論文を辿ってください