果物をいっぱい食べたい

統計、機械学習周りの勉強や提案やOSS開発の記録

IPW 推定量の漸近分散についての補足

過去の記事の中で、 IPW の漸近分散について、以下の主張を行っていました。

よって、 Potential outcome の符号が等しければ右辺が0以上になり、「Horvitz-Thompson estimator より Hajek estimator の方が漸近分散が小さい」という主張が成立すると考えられます。

しかし、 @BluesNoNo さんとやりとりをしていく中で、  \pi の値に着目することで別の条件を考えられる可能性を教えていただきました。

その後、さらに式展開を行っていく中で、特別な条件なしで漸近分散の比較ができそうだということがわかってきたので、本記事の中で補足を行いたいと思います。

記事のゴール

本記事では、以下の主張を行うことをゴールにします:

  • Horvitz-Thompson estimator より Hajek estimator の方が漸近分散が大きくなることはない(傾向スコアモデルgivenのとき)

新規性

以下の2点で新規性があると考えています。

  • 上記の主張を(少なくとも日本語で簡単に)示したこと
  • その過程で共分散についての簡単な補題を示したこと

補題については車輪の再発明も含んでいそうですが、証明を探すのに苦労した(結局自分で示しました)ので、日本語で必要な情報をサクッとまとめているという点で、一応新規性としておきます*1

これ以降は証明をするだけなので、証明に興味がある方のみご覧いただければと思います。

過去の記事のおさらい

過去の記事では、傾向スコアモデルが与えられたもとで、以下のような式展開により、 「Potential outcome の符号が等しければ、 Horvitz-Thompson estimator より Hajek estimator の方が漸近分散が小さい」という主張に至っていました。

\begin{eqnarray} Var_{HT}(\hat{\theta}_{1} - \hat{\theta}_{0}) - Var_{Hajek}(\hat{\theta}_{1} - \hat{\theta}_{0}) &=& \mathbb{E}\Bigl[ \frac{\theta_1^{2}}{\pi} \Bigr] + \mathbb{E}\Bigl[ \frac{\theta_0^{2}}{1-\pi} \Bigr] - (\theta_1 - \theta_0)^2 \\ &>& \theta_1^2 + \theta_0^2 - (\theta_1 - \theta_0)^2 \ \ \ (\because 0 < \pi < 1) \\ &=& 2\theta_1\theta_0 \tag{1} \end{eqnarray}

新たな主張

記事の主張を定理にすると、以下になります:

[Theorem 1]

\begin{eqnarray} Var_{HT}(\hat{\theta}_{1} - \hat{\theta}_{0}) - Var_{Hajek}(\hat{\theta}_{1} - \hat{\theta}_{0}) &\ge& 0 \tag{2} \end{eqnarray}

以下の流れで証明を行っていきます:

  • 式1の中でいきなり不等式を作るのではなく、  \pi を使ったまま式を展開する
  • 二次式が出てくるので最小値を調べてみる
  • 共分散の符号を調べる補題に落とし込む

二次式を作るところまで

まず、改めて式1を展開をしていきます。

\begin{eqnarray} w_1 :&=& \mathbb{E}\bigl[\frac{1}{\pi}\bigr] \\ w_0: &=& \mathbb{E}\bigl[\frac{1}{1-\pi}\bigr] \\ \mathbb{E}\Bigl[ \frac{\theta_1^{2}}{\pi} \Bigr] + \mathbb{E}\Bigl[ \frac{\theta_0^{2}}{1-\pi} \Bigr] - (\theta_1 - \theta_0)^2 &=& \bigl(w_1- 1\bigr) \theta_1^2 + \bigl(w_0 - 1\bigr) \theta_0^2 + 2\theta_1\theta_0 \tag{3} \end{eqnarray}

ここで、  w_1 > 1 なので、両辺を  w_1 - 1 で割っても符号は変わりません。実際に割ってみると、

\begin{eqnarray} \biggl(\theta_1 + \frac{\theta_0}{w_1-1}\biggr)^2 + \frac{w_0 - 1}{w_1 - 1}\theta_0^2 - \frac{1}{(w_1-1)^2}\theta_0^2 &\ge& \frac{\theta_0^2}{(w_1-1)^2}\bigl( (w_1-1)(w_0-1)-1\bigr) \tag{4} \end{eqnarray}

のように計算でき、Theorem 1 が成立するには以下の条件が成立すればよいことがわかります:

\begin{eqnarray} \bigl(w_1-1)(w_0-1) \ge 1 \tag{5} \end{eqnarray}

共分散の符号を調べる補題への落とし込み

式5に  -1 をかけた上で再度  \pi を使って書いてみると、以下のように計算できます:

\begin{eqnarray} -\mathbb{E}\bigl[\frac{1}{\pi}\bigr] \mathbb{E}\bigl[\frac{1}{1-\pi}\bigr] + \biggl(\mathbb{E}\bigl[\frac{1}{\pi}\bigr] + \mathbb{E}\bigl[\frac{1}{1-\pi}\bigr] \biggr) &=& -\mathbb{E}\bigl[\frac{1}{\pi}\bigr] \mathbb{E}\bigl[\frac{1}{1-\pi}\bigr] + \mathbb{E}\bigl[\frac{1}{\pi}\frac{1}{1-\pi}\bigr]\\ &\le& 0 \tag{6} \end{eqnarray}

ここで、 \pi はランダムな共変量によって決まる確率変数であるので、式6は  \frac{1}{\pi} \frac{1}{1-\pi} の共分散がゼロ以下であるという意味になります。

よって、共分散についての補題2を示すことにより、Theorem 1 が示せます*2

補題 1

Lemma 1

\begin{eqnarray} \text{Let} \ C \ \text{be a covariance of two random variables} \\ \text{and} \ X \ \text{be a random variable s.t.} \ 0 < X.\ \text{Then,}\\ C\biggl(X, \frac{1}{X}\biggr) &\le& 0 \tag{7} \end{eqnarray}

Proof of Lemma 1

\begin{eqnarray} C\biggl(X, \frac{1}{X} \biggr) &=& \mathbb{E}\bigl[X \cdot \frac{1}{X}\bigr] - \mathbb{E}[X]\mathbb{E}\bigl[\frac{1}{X}\bigr] \\ &=& 1 - \mathbb{E}[X]\mathbb{E}\bigl[\frac{1}{X}\bigr] \\ &\le& 0 \ \ \ (\because \text{Jensen's inequality and} \ X > 0) \tag{8} \end{eqnarray}

補題 2

Lemma 2

\begin{eqnarray} \text{Let} \ C \ \text{be a covariance of two random variables} \\ \text{and} \ X \ \text{be a random variable s.t.} \ 0 < X < 1.\ \text{Then,}\\ C\biggl(\frac{1}{X}, \frac{1}{1-X}\biggr) &\le& 0 \tag{7} \end{eqnarray}

Proof of Lemma 2

\begin{eqnarray} t_1 &:=& \frac{1}{X}\\ t_0 &:=& \frac{1}{1-X} \tag{8} \end{eqnarray}

とおくと、以下の関係式を得られます:

\begin{eqnarray} t_1 &>& 1\\ t_0 &>& 1\\ \frac{1}{t_1} &=& 1 - \frac{1}{t_0}\\ t_0 &=& \frac{t_1}{t_1 - 1}\\ &=& 1 + \frac{1}{t_1 - 1} \tag{9} \end{eqnarray}

これらを用いると、期待値の線形性や共分散の性質から、

\begin{eqnarray} C\biggl(\frac{1}{X}, \frac{1}{1-X}\biggr) &=& \mathbb{E}\biggl[\frac{1}{X} \cdot \frac{1}{1-X}\biggr] - \mathbb{E}\biggl[\frac{1}{X}\biggr]\mathbb{E}\biggl[\frac{1}{1-X}\biggr] \\ &=& \mathbb{E}\biggl[ t_1 \cdot \biggl(1 + \frac{1}{t_1 - 1}\biggr)\biggr] - \mathbb{E}\biggl[ t_1 \biggr] \mathbb{E}\biggl[1 + \frac{1}{t_1 - 1}\biggr] \\ &=& \mathbb{E}\biggl[\frac{t_1}{t_1 - 1}\biggr] - \mathbb{E}\biggl[ t_1 \biggr] \mathbb{E}\biggl[\frac{1}{t_1 - 1}\biggr] \\ &=& C\biggl(t_1, \frac{1}{t_1 - 1}\biggr) \\ &=& C\biggl(t_1-1, \frac{1}{t_1 - 1}\biggr) \\ &\le& 0 \ \ \ (\because \text{Lemma 1}) \tag{10} \end{eqnarray}

となるので、題意が示されました*3

まとめ

以上のように、推定量の漸近分散の比較を詳しく行い、傾向スコアモデルgivenのときには「Horvitz-Thompson estimator より Hajek estimator の方が漸近分散が大きくなることはない」ことを示しました。

共分散の符号の補題については、よく使いそうなものであるにも関わらずピンポイントな主張をすぐに見つけられず、自分で示した方が早いだろうと判断して証明してみました。

証明の誤りを見つけられた方、あるいは補題の証明について言及されているよりよい資料を見つけられた方がいらっしゃいましたら、そっとご指摘いただけると幸いです。

このような記事を書くきっかけを作ってくださった @BluesNoNo さん、ありがとうございます。

*1:厳密に新規性についてサーベイをできているわけではないのでご容赦ください

*2:Twitter上のやりとりでは「直感的に成立しそう」というところまでしか言えていませんでした

*3:2行目から3行目の展開で  \mathbb{E}[t_1] がキャンセルされます