カルバック・ライブラー情報量
Contents
カルバック・ライブラー情報量
カルバック・ライブラー情報量 (英:Kullback–Leibler divergence, KL divergence) とは、異なる二つの確率分布から得られる情報量の差の期待値のこと。双対エントロピー (英:relative entropy) とも呼ばれる。$p,q$ を確率質量関数とするとき、$p$ の $q$ に対するカルバック・ライブラー情報量は、次式で定義される。
\[ \begin{aligned} D_\text{KL}(p\parallel q) &= \sum_{i} p(x_i)\log\frac{p(x_i)}{q(x_i)} \cr &= \sum_{i} p(x_i)(I_q(x_i)-I_p(x_i)) \cr &= \sum_{i} p(x_i)I_q(x_i) - \sum_{i} p(x_i)I_p(x_i) \cr &= H(p,q) - H(p,p) \end{aligned} \]
また、KL情報量は非対称であるため。$D_\text{KL}(p\parallel q)$ と $D_\text{KL}(q\parallel p)$ は一致しない。
ギブスの不等式
ギブスの不等式 (英:Gibbs' inequality) とは、二つの確率分布の間に成立する不等式のこと。確率質量関数 $p,q$ が与えられたとき、次の不等式が成り立つ。
\[ -\sum_{i}p_i\log p_i \le -\sum_{i}p_i\log q_i \]
ギブスの不等式の証明:
次式より対数関数の二階導関数が常に非正であることから、対数関数は上に凸な関数である。
\[ \begin{aligned} (\log x)^{\prime\prime} &= \left(\frac{1}{x\ln b}\right)^\prime \cr &= -\frac{1}{x^2\ln b} \cr \end{aligned} \]
よって $-\log_b x$ は凸関数であることから、イェンセンの不等式により、
\[ \begin{gathered} \begin{aligned} \sum_{i}p_i\left[-\log\frac{q_i}{p_i}\right] &\ge -\log\sum_i p_i\frac{q_i}{p_i} \cr \sum_{i}p_i\big((-\log q_i\big)-(-\log p_i)\big) &\ge -\log\sum_i q_i \cr \sum_{i}p_i(-\log q_i) - \sum_{i}p_i(-\log p_i) &\ge -\log 1 \cr \end{aligned} \cr \cr \left(-\sum_{i}p_i\log q_i\right) - \left(-\sum_{i}p_i\log p_i\right) \ge 0 \cr -\sum_{i}p_i\log q_i \ge -\sum_{i}p_i\log p_i \cr \cr \therefore -\sum_{i}p_i\log p_i \le -\sum_{i}p_i\log q_i \end{gathered} \]
KL情報量の非負性
KL情報量は常に非負である性質を持つ。
\[ D_\text{KL}(p\parallel q) \ge 0 \]
KL情報量の非負性の証明:
\[ \begin{aligned} D_\text{KL}(p\parallel q) &= \sum_{i} p(x_i)\log\frac{p(x_i)}{q(x_i)} \cr &= \sum_{i} p(x_i)\log p(x_i) - \sum_{i} p(x_i)\log q(x_i) \cr \end{aligned} \]
ギブスの不等式により、
\[ \begin{gathered} \begin{aligned} -\sum_{i} p(x_i)\log p(x_i) &\le -\sum_{i} p(x_i)\log q(x_i) \cr \sum_{i} p(x_i)\log p(x_i) &\ge \sum_{i} p(x_i)\log q(x_i) \cr \end{aligned} \cr \cr \sum_{i} p(x_i)\log p(x_i) - \sum_{i} p(x_i)\log q(x_i) \ge 0 \cr \cr \therefore D_\text{KL}(p\parallel q) \ge 0 \end{gathered} \]