Fisher 計量と統計多様体
Bayesian 推論を「確率分布の空間上の幾何」として捉えると、T 理論の臨場感操作・LUB 抽象化に新しい数理基盤が見えてきます。本章は Fisher 計量と統計多様体の入口を作ります。
統計多様体とは
確率分布 $p_\theta(x)$ をパラメータ $\theta = (\theta_1, \ldots, \theta_n)$ で表現する時、$\theta$ 空間 $\Theta \subseteq \mathbb{R}^n$ は 統計多様体(statistical manifold)を構成します。
各点 $\theta \in \Theta$ が 一つの確率分布に対応:
- $\theta = (\mu, \sigma)$ → 正規分布 $\mathcal{N}(\mu, \sigma^2)$
- $\theta = p$ → ベルヌーイ分布 $\mathrm{Bern}(p)$
T 理論的解釈:多世界 W 上の確率測度の空間 = 統計多様体。Bayesian 認知主体は この多様体上を動く点として記述される。
Fisher 情報量
統計多様体上の 「自然な距離」を測るのが Fisher 情報計量:
$$ g_{ij}(\theta) = \mathbb{E}_{p_\theta}\left[\frac{\partial \log p_\theta}{\partial \theta_i} \cdot \frac{\partial \log p_\theta}{\partial \theta_j}\right] $$
これは $n \times n$ 行列(Riemannian 計量)で、$\theta$ の微小変化が確率分布の「大きな」変化を生む方向を捉えます。
Cramér-Rao 下限
Fisher 情報量の意味は古典的な Cramér-Rao 下限で見える:
$$ \mathrm{Var}(\hat{\theta}) \ge \big[g(\theta)\big]^{-1} $$
つまり「不偏推定量の分散は Fisher 情報量の逆数 で下から押さえられる」。
直観:Fisher 情報量が 大きい(認知できる情報が多い)→ 推定の精度が 高い。
T 理論的解釈:臨場感 $P$ が高い世界ほど、その世界の Fisher 情報量が大きい(分布が鋭く集中している)。
統計多様体上の測地線
Riemannian 計量 $g_{ij}$ が定まれば、測地線(geodesic)が定義できます。$\theta(t)$ が測地線とは:
$$ \frac{d^2 \theta^k}{dt^2} + \Gamma^k_{ij} \frac{d\theta^i}{dt} \frac{d\theta^j}{dt} = 0 $$
ここで $\Gamma^k_{ij}$ は 接続係数(Christoffel symbol)で、計量から導かれる。
T 理論的解釈:Bayesian 推論で事前から事後への 最短経路は統計多様体上の測地線。
双対接続 — α-接続
Fisher 計量と整合する接続は一意ではありません。指数型分布族(正規分布・ベルヌーイ等)では二つの自然な接続:
- e-接続($\nabla^{(e)}$):exponential 接続
- m-接続($\nabla^{(m)}$):mixture 接続
これらは 互いに双対(Riemann 計量に対して dual):
$$ X g(Y, Z) = g(\nabla^{(e)}_X Y, Z) + g(Y, \nabla^{(m)}_X Z) $$
これが Amari の 情報幾何の核心構造です。
α-接続の系列
e-接続と m-接続を内挿した α-接続:
$$ \nabla^{(\alpha)} = \frac{1+\alpha}{2} \nabla^{(e)} + \frac{1-\alpha}{2} \nabla^{(m)} $$
特殊値:
- $\alpha = +1$ → e-接続
- $\alpha = 0$ → Levi-Civita 接続(Riemann 計量から自然に出る)
- $\alpha = -1$ → m-接続
T 理論的には、$\alpha$ が 抽象化と具体化の中間度合いを表す可能性があります(後述)。
双対原理と双対接続
T 理論の 双対原理(下降 ∧ 上昇)を情報幾何で再解釈すると:
- 下降(具体化):m-接続($\alpha = -1$)に沿う運動 — 期待値・平均化の方向
- 上昇(抽象化):e-接続($\alpha = +1$)に沿う運動 — 凸性・指数化の方向
両者の 双対対が情報幾何で形式化される、という解釈。
これは 試論的で、T 理論を情報幾何で再構築する作業はまだ始まったばかりです。
露出性と LUB の関係
統計多様体上の 線型部分多様体:
- e-平坦(指数族の部分集合)
- m-平坦(混合族の部分集合)
これらは 共役 で、両者の交点が特殊な分布点を与えます。
T 理論的に LUB を情報幾何で捉える試論:
- 集合 $\{p_1, \ldots, p_n\}$ の LUB = 部分多様体の m-平均(混合分布)?
- GLB = e-平均(指数平均)?
これは 未確立の対応で、研究上の予想に留まります。
Bayesian 推論の幾何
Bayes の定理をパラメータ空間で書くと:
$$ \theta_{\text{post}} = \mathrm{Bayes}(\theta_{\text{prior}}, D) $$
これは統計多様体上の 写像です。「事前 → 事後」の動学が幾何的にどう動くかを Fisher 計量で記述できる。
特に:
- 事前と事後の KL ダイバージェンスは Fisher 計量で測られる
- 観測データの量が増えるほど 後方分布が事前から離れる
- Bayes 更新は Fisher 計量の意味で 特定の方向に進む
これが Predictive coding(Friston)や active inference の数理基盤です。
Friston の自由エネルギー原理との接続
K. Friston の 自由エネルギー原理:
生物は変分自由エネルギー $F$ を最小化する
$$ F = \mathbb{E}_q[\log q(\theta) - \log p(D, \theta)] = D_{\mathrm{KL}}(q \| p) - \log p(D) $$
ここで $q$ は内部モデル、$p$ は真の分布。
T 理論との対応:
- $F$ ↔ T 理論の Lyapunov 関数 $\Phi$
- $D_{\mathrm{KL}}$ 最小化 ↔ 認知の収束
- 事前→事後の更新 ↔ TCZ への引力
つまり T 理論と自由エネルギー原理は数理的に近い構造を持っている可能性があります。完全な対応は未確立ですが、研究上の有望な接続点。
認知系での Fisher 計量
T 理論の中心式 $\tilde{V} = V_0 - \kappa P Q$ を Fisher 幾何で読み直す試論:
- $P$(臨場感)は Fisher 情報量 $\sqrt{\det g(\theta_*)}$ に対応?
- $\kappa$ は計量と評価関数の結合強度?
- $Q$ は方向ベクトル(接ベクトル)?
これらは 形式的に組み直す必要があり、現時点では類推レベル。
自然勾配(次章で本格扱い)
Fisher 計量を使うと 自然勾配(natural gradient)が定義できます:
$$ \nabla^{\text{nat}} L = g^{-1} \nabla L $$
これは 統計多様体上で「真にもっとも下る」方向で、通常のユークリッド勾配より効率的に最適化を進めます。
T 理論の最適化(中心式の最小化)を自然勾配で書き直すと、収束速度が大幅に上がる可能性。次章で詳細。
開かれた研究問題
T 理論を情報幾何で再構築する作業の難所:
- 認知系での $\theta$ が何か:認知主体の内部パラメータの同定
- Fisher 計量の認知的計測:実験で測れるか
- 双対接続と双対原理の対応:形式的に証明できるか
- 量子情報幾何への拡張:量子認知(後の章 §26)との接続
- 確率分布の空間 = 統計多様体($\theta \in \Theta$)
- Fisher 計量が「自然な距離」を与える(Cramér-Rao 下限の根拠)
- 双対接続(e-接続と m-接続)が情報幾何の核心構造
- T 理論の 双対原理(下降∧上昇)が情報幾何の双対対と対応する 試論
- Friston 自由エネルギー原理と T 理論は形式的に近接する可能性
- 認知系での具体化は未確立(研究フロンティア)
本章は情報幾何の入口です。本格的な学習には: - Amari, "Information Geometry and Its Applications" (2016) - Amari & Nagaoka, "Methods of Information Geometry" (2000) - Friston, "The free-energy principle: a unified brain theory?" (2010) T 理論を情報幾何で 形式的に再構築することは未完の研究課題です。
確認
問:Fisher 計量と KL ダイバージェンスの関係を、二階の Taylor 展開から説明してください。
解答を見る
KL ダイバージェンスの二階 Taylor 展開の係数行列が Fisher 計量です。
KL ダイバージェンス:
$$ D_{\mathrm{KL}}(p_\theta \| p_{\theta + \Delta\theta}) = \int p_\theta \log \frac{p_\theta}{p_{\theta + \Delta\theta}}\, dx $$
$\Delta\theta$ について Taylor 展開すると:
$$ D_{\mathrm{KL}}(p_\theta \| p_{\theta + \Delta\theta}) = 0 + 0 + \tfrac{1}{2} g_{ij}(\theta) \Delta\theta^i \Delta\theta^j + O(|\Delta\theta|^3) $$
つまり:
- 0 次項:0(同じ点での KL は 0)
- 1 次項:0(KL の最小値が同点)
- 2 次項:Fisher 計量
含意:KL ダイバージェンスを微小スケールで見ると、Fisher 計量による距離の二乗。これが Fisher 計量を「確率分布間の距離」と解釈できる根拠です。
T 理論的には、事前→事後の臨場感ジャンプ は KL で測られ、その微小極限で Fisher 計量が現れる。
確認
問:T 理論の双対原理(下降∧上昇)を、e-接続と m-接続の双対対として捉える試論には、どんな限界がありますか?
解答を見る
複数の限界があります:
- 形式的対応が未確立:双対原理は「下降と上昇の同時進行」と概念的に述べられているが、e-接続/m-接続が文字通りこれに対応するかは厳密証明されていない
- $\alpha$ の認知的意味:α-接続の連続変形パラメータ $\alpha \in [-1, +1]$ が認知系で何を意味するか不明
- 指数族外への一般化:e/m-接続は指数族・混合族に特化した構造で、T 理論の一般的な認知系がこれに収まるか不明
- 検証可能性:この対応が成り立つかどうか、経験的に検証する方法が未提案
これらは 研究上の予想として開かれており、形式化は今後の課題。本書はあくまで 「こういう接続がありうる」というレベルでの提示。
T 理論の中級・上級編を通じて見えてくるパターン:形式は試論レベル、隣接領域への橋渡しは可能、完全証明は今後、というスタンスです。
次章への接続
Fisher 計量が手に入ったので、次章では 自然勾配と Bregman ダイバージェンスを本格的に扱います。T 理論の最適化を自然幾何で書き直す作業に進みます。