第 21 章情報幾何所要約 22 分前提:Ch20

Fisher 計量と統計多様体

Bayesian 推論を「確率分布の空間上の幾何」として捉えると、T 理論の臨場感操作・LUB 抽象化に新しい数理基盤が見えてきます。本章は Fisher 計量と統計多様体の入口を作ります。

統計多様体とは

確率分布 $p_\theta(x)$ をパラメータ $\theta = (\theta_1, \ldots, \theta_n)$ で表現する時、$\theta$ 空間 $\Theta \subseteq \mathbb{R}^n$ は 統計多様体(statistical manifold)を構成します。

各点 $\theta \in \Theta$ が 一つの確率分布に対応:

$\theta = (\mu, \sigma)$ → 正規分布 $\mathcal{N}(\mu, \sigma^2)$
$\theta = p$ → ベルヌーイ分布 $\mathrm{Bern}(p)$

T 理論的解釈:多世界 W 上の確率測度の空間 = 統計多様体。Bayesian 認知主体は この多様体上を動く点として記述される。

Fisher 情報量

統計多様体上の 「自然な距離」を測るのが Fisher 情報計量:

$$ g_{ij}(\theta) = \mathbb{E}_{p_\theta}\left[\frac{\partial \log p_\theta}{\partial \theta_i} \cdot \frac{\partial \log p_\theta}{\partial \theta_j}\right] $$

これは $n \times n$ 行列(Riemannian 計量)で、$\theta$ の微小変化が確率分布の「大きな」変化を生む方向を捉えます。

Cramér-Rao 下限

Fisher 情報量の意味は古典的な Cramér-Rao 下限で見える:

$$ \mathrm{Var}(\hat{\theta}) \ge \big[g(\theta)\big]^{-1} $$

つまり「不偏推定量の分散は Fisher 情報量の逆数 で下から押さえられる」。

直観:Fisher 情報量が 大きい(認知できる情報が多い)→ 推定の精度が高い。

T 理論的解釈:臨場感 $P$ が高い世界ほど、その世界の Fisher 情報量が大きい(分布が鋭く集中している)。

統計多様体上の測地線

Riemannian 計量 $g_{ij}$ が定まれば、測地線(geodesic)が定義できます。$\theta(t)$ が測地線とは:

$$ \frac{d^2 \theta^k}{dt^2} + \Gamma^k_{ij} \frac{d\theta^i}{dt} \frac{d\theta^j}{dt} = 0 $$

ここで $\Gamma^k_{ij}$ は 接続係数(Christoffel symbol)で、計量から導かれる。

T 理論的解釈:Bayesian 推論で事前から事後への 最短経路は統計多様体上の測地線。

双対接続 — α-接続

Fisher 計量と整合する接続は一意ではありません。指数型分布族(正規分布・ベルヌーイ等)では二つの自然な接続:

e-接続($\nabla^{(e)}$):exponential 接続
m-接続($\nabla^{(m)}$):mixture 接続

これらは 互いに双対(Riemann 計量に対して dual):

$$ X g(Y, Z) = g(\nabla^{(e)}_X Y, Z) + g(Y, \nabla^{(m)}_X Z) $$

これが Amari の 情報幾何の核心構造です。

α-接続の系列

e-接続と m-接続を内挿した α-接続:

$$ \nabla^{(\alpha)} = \frac{1+\alpha}{2} \nabla^{(e)} + \frac{1-\alpha}{2} \nabla^{(m)} $$

特殊値:

$\alpha = +1$ → e-接続
$\alpha = 0$ → Levi-Civita 接続(Riemann 計量から自然に出る)
$\alpha = -1$ → m-接続

T 理論的には、$\alpha$ が 抽象化と具体化の中間度合いを表す可能性があります(後述)。

双対原理と双対接続

T 理論の 双対原理(下降 ∧ 上昇)を情報幾何で再解釈すると:

下降(具体化):m-接続($\alpha = -1$)に沿う運動 — 期待値・平均化の方向
上昇(抽象化):e-接続($\alpha = +1$)に沿う運動 — 凸性・指数化の方向

両者の 双対対が情報幾何で形式化される、という解釈。

これは 試論的で、T 理論を情報幾何で再構築する作業はまだ始まったばかりです。

露出性と LUB の関係

統計多様体上の 線型部分多様体:

e-平坦(指数族の部分集合)
m-平坦(混合族の部分集合)

これらは共役で、両者の交点が特殊な分布点を与えます。

T 理論的に LUB を情報幾何で捉える試論:

集合 $\{p_1, \ldots, p_n\}$ の LUB = 部分多様体の m-平均(混合分布)?
GLB = e-平均(指数平均)?

これは 未確立の対応で、研究上の予想に留まります。

Bayesian 推論の幾何

Bayes の定理をパラメータ空間で書くと:

$$ \theta_{\text{post}} = \mathrm{Bayes}(\theta_{\text{prior}}, D) $$

これは統計多様体上の写像です。「事前 → 事後」の動学が幾何的にどう動くかを Fisher 計量で記述できる。

特に:

事前と事後の KL ダイバージェンスは Fisher 計量で測られる
観測データの量が増えるほど 後方分布が事前から離れる
Bayes 更新は Fisher 計量の意味で 特定の方向に進む

これが Predictive coding(Friston)や active inference の数理基盤です。

Friston の自由エネルギー原理との接続

K. Friston の 自由エネルギー原理:

生物は変分自由エネルギー $F$ を最小化する

$$ F = \mathbb{E}_q[\log q(\theta) - \log p(D, \theta)] = D_{\mathrm{KL}}(q \| p) - \log p(D) $$

ここで $q$ は内部モデル、$p$ は真の分布。

T 理論との対応:

$F$ ↔ T 理論の Lyapunov 関数 $\Phi$
$D_{\mathrm{KL}}$ 最小化 ↔ 認知の収束
事前→事後の更新 ↔ TCZ への引力

つまり T 理論と自由エネルギー原理は数理的に近い構造を持っている可能性があります。完全な対応は未確立ですが、研究上の有望な接続点。

認知系での Fisher 計量

T 理論の中心式 $\tilde{V} = V_0 - \kappa P Q$ を Fisher 幾何で読み直す試論:

$P$(臨場感)は Fisher 情報量 $\sqrt{\det g(\theta_*)}$ に対応?
$\kappa$ は計量と評価関数の結合強度?
$Q$ は方向ベクトル(接ベクトル)?

これらは 形式的に組み直す必要があり、現時点では類推レベル。

自然勾配(次章で本格扱い)

Fisher 計量を使うと 自然勾配(natural gradient)が定義できます:

$$ \nabla^{\text{nat}} L = g^{-1} \nabla L $$

これは 統計多様体上で「真にもっとも下る」方向で、通常のユークリッド勾配より効率的に最適化を進めます。

T 理論の最適化(中心式の最小化)を自然勾配で書き直すと、収束速度が大幅に上がる可能性。次章で詳細。

開かれた研究問題

T 理論を情報幾何で再構築する作業の難所:

認知系での $\theta$ が何か:認知主体の内部パラメータの同定
Fisher 計量の認知的計測:実験で測れるか
双対接続と双対原理の対応:形式的に証明できるか
量子情報幾何への拡張:量子認知(後の章 §26)との接続

情報幾何への拡張の要点

確率分布の空間 = 統計多様体($\theta \in \Theta$)
Fisher 計量が「自然な距離」を与える(Cramér-Rao 下限の根拠)
双対接続(e-接続と m-接続)が情報幾何の核心構造
T 理論の 双対原理(下降∧上昇)が情報幾何の双対対と対応する試論
Friston 自由エネルギー原理と T 理論は形式的に近接する可能性
認知系での具体化は未確立(研究フロンティア)

研究領域接続

本章は情報幾何の入口です。本格的な学習には: - Amari, "Information Geometry and Its Applications" (2016) - Amari & Nagaoka, "Methods of Information Geometry" (2000) - Friston, "The free-energy principle: a unified brain theory?" (2010) T 理論を情報幾何で 形式的に再構築することは未完の研究課題です。

確認

問:Fisher 計量と KL ダイバージェンスの関係を、二階の Taylor 展開から説明してください。

解答を見る

KL ダイバージェンスの二階 Taylor 展開の係数行列が Fisher 計量です。

KL ダイバージェンス:

$$ D_{\mathrm{KL}}(p_\theta \| p_{\theta + \Delta\theta}) = \int p_\theta \log \frac{p_\theta}{p_{\theta + \Delta\theta}}\, dx $$

$\Delta\theta$ について Taylor 展開すると:

$$ D_{\mathrm{KL}}(p_\theta \| p_{\theta + \Delta\theta}) = 0 + 0 + \tfrac{1}{2} g_{ij}(\theta) \Delta\theta^i \Delta\theta^j + O(|\Delta\theta|^3) $$

つまり:

0 次項:0(同じ点での KL は 0)
1 次項:0(KL の最小値が同点)
2 次項:Fisher 計量

含意:KL ダイバージェンスを微小スケールで見ると、Fisher 計量による距離の二乗。これが Fisher 計量を「確率分布間の距離」と解釈できる根拠です。

T 理論的には、事前→事後の臨場感ジャンプ は KL で測られ、その微小極限で Fisher 計量が現れる。

確認

問:T 理論の双対原理(下降∧上昇)を、e-接続と m-接続の双対対として捉える試論には、どんな限界がありますか?

解答を見る

複数の限界があります:

形式的対応が未確立:双対原理は「下降と上昇の同時進行」と概念的に述べられているが、e-接続/m-接続が文字通りこれに対応するかは厳密証明されていない
$\alpha$ の認知的意味:α-接続の連続変形パラメータ $\alpha \in [-1, +1]$ が認知系で何を意味するか不明
指数族外への一般化:e/m-接続は指数族・混合族に特化した構造で、T 理論の一般的な認知系がこれに収まるか不明
検証可能性:この対応が成り立つかどうか、経験的に検証する方法が未提案

これらは 研究上の予想として開かれており、形式化は今後の課題。本書はあくまで 「こういう接続がありうる」というレベルでの提示。

T 理論の中級・上級編を通じて見えてくるパターン:形式は試論レベル、隣接領域への橋渡しは可能、完全証明は今後、というスタンスです。

次章への接続

Fisher 計量が手に入ったので、次章では 自然勾配と Bregman ダイバージェンスを本格的に扱います。T 理論の最適化を自然幾何で書き直す作業に進みます。