第 22 章幾何所要約 22 分前提:Ch21

自然勾配と Bregman 幾何

前章の Fisher 計量を使うと、最適化問題に「自然勾配」という強力な道具が入ります。本章では自然勾配と Bregman ダイバージェンスの幾何で、T 理論の最適化を書き直します。

通常の勾配の限界

通常のユークリッド勾配:

$$ \nabla L(\theta) = \left(\frac{\partial L}{\partial \theta_1}, \ldots, \frac{\partial L}{\partial \theta_n}\right) $$

これは パラメータ表示に依存 します。同じ確率分布族でもパラメータ化を変えると勾配方向が変わる(共変的でない)。

例:正規分布を $\theta = (\mu, \sigma)$ vs $\theta = (\mu, \log\sigma)$ で表すと、ユークリッド勾配は方向が違う。

自然勾配の定義

Fisher 計量 $g$ を使った 自然勾配:

$$ \tilde{\nabla} L = g^{-1}(\theta) \nabla L $$

これはパラメータ化に不変(reparameterization invariant)で、統計多様体上での 真にもっとも急に下る方向を指します。

自然勾配の効率性

通常の勾配降下:$\theta_{t+1} = \theta_t - \eta \nabla L$ 自然勾配降下:$\theta_{t+1} = \theta_t - \eta g^{-1} \nabla L$

性質:

自然勾配は 収束が早い(同じステップ数で深く下る)
共役勾配法やニュートン法と関連がある
機械学習では Amari (1998) 以来 deep learning の高速化道具

T 理論的応用:Bayesian 推論で事前→事後への動学を 自然勾配的に書き直すと、収束速度が解析的に評価できる。

Newton 法との関係

ニュートン法:$\theta_{t+1} = \theta_t - \eta H^{-1} \nabla L$($H$ は Hessian 行列)

自然勾配は Hessian の代わりに Fisher 計量を使うと見なせます。両者は:

凸関数の場合:H と g が漸近的に一致(MLE 周辺)
一般:H は問題の二階微分、g は 確率分布の幾何的計量

T 理論で Lyapunov 関数 $\Phi$ の最小化に自然勾配を使うと、認知系の 幾何構造を尊重した最適化になります。

Bregman ダイバージェンス

凸関数 $F : \Theta \to \mathbb{R}$ から派生する Bregman ダイバージェンス:

$$ D_F(\theta_1 \| \theta_2) = F(\theta_1) - F(\theta_2) - \nabla F(\theta_2) \cdot (\theta_1 - \theta_2) $$

これは「$\theta_2$ での接平面と $F$ のずれ」を測る、非対称な距離。

性質:

$D_F(\theta \| \theta) = 0$
$D_F \ge 0$($F$ が凸なら)
非対称:$D_F(\theta_1 \| \theta_2) \neq D_F(\theta_2 \| \theta_1)$ 一般

主要な Bregman ダイバージェンス

$F(\theta)$	$D_F$
$\frac{1}{2}\\|\theta\\|^2$	$\frac{1}{2}\\|\theta_1 - \theta_2\\|^2$(Euclid 平方距離)
$\sum \theta_i \log \theta_i - \theta_i$	KL ダイバージェンス
$-\sum \log \theta_i$	Itakura-Saito ダイバージェンス

KL ダイバージェンスは「負のエントロピー $F = -H$ から派生する Bregman」と見える。これは情報理論と幾何の橋渡し。

Bregman 幾何と双対座標

凸関数 $F$ に対する Legendre 変換:

$$ F^*(\eta) = \sup_\theta \big[\theta \cdot \eta - F(\theta)\big] $$

これにより双対座標 $\eta = \nabla F(\theta)$ が定義される。θ-座標と η-座標が 双対対を成す。

T 理論の e-接続(θ 座標)と m-接続(η 座標) は、まさにこの Legendre 双対の表れ。

双対原理と双対座標

T 理論の双対原理を Bregman 幾何で書き直す試論:

下降(具体化):η 座標(混合・期待値)で動く
上昇(抽象化):θ 座標(指数・凸対)で動く
両者の双対対:Legendre 変換 $\theta \leftrightarrow \eta$

これが情報幾何で形式化された双対原理の候補。

Mirror Descent

Bregman ダイバージェンスを使った最適化アルゴリズム Mirror Descent:

$$ \theta_{t+1} = \arg\min_\theta \big[\eta_t \cdot \nabla L(\theta_t) + \frac{1}{\alpha_t} D_F(\theta \| \theta_t)\big] $$

これは 「F の幾何で勾配降下する」 アルゴリズム。$F$ を選ぶことで:

$F = \frac{1}{2}\|\cdot\|^2$ → 通常の勾配降下
$F = $ 負のエントロピー → 指数勾配(softmax 系)

T 理論的応用:認知主体が「その時々の $F$ の幾何で動く」と仮定すると、適応的最適化が記述できる。

自由エネルギーと Bregman

前章で触れた Friston 自由エネルギー $F$ も Bregman の特殊例として書けます:

$$ F = D_{\mathrm{KL}}(q \| p) + (\text{定数}) $$

つまり自由エネルギー最小化 = KL Bregman ダイバージェンス最小化。

T 理論の Lyapunov 関数 $\Phi$ が KL Bregman で書ける場合、自由エネルギー原理の枠組みに自然に乗ります。

認知系の自然勾配

T 理論の中心式 $\tilde{V} = V_0 - \kappa P Q$ を最小化する時、自然勾配 で動かすとは:

$$ \dot\theta = -g^{-1}(\theta) \nabla \tilde{V}(\theta) $$

ここで $\theta$ は認知主体の内部パラメータ、$g$ は Fisher 計量。

含意:認知の動学は幾何構造を尊重した自然勾配の流れとして記述できる。これは:

新しい状況への適応の速さの数理的説明
学習効率の幾何的解釈
T.0 三言語同型の幾何的根拠(計量保存写像として)

試論レベルの限界

本章の議論は 形式化されていない試論が多い:

認知系の Fisher 計量の具体形は未確立
T 理論の中心式が真に Bregman 形式で書けるかは未証明
自然勾配の認知的解釈が経験的に支持されるか未検証

これらは情報幾何と T 理論の融合研究としての将来課題。

開かれた研究問題

T 理論の中心式 $\tilde{V}$ を Bregman ダイバージェンスとして書き直す形式
$\kappa, P, Q$ の幾何的解釈(計量・接ベクトル・dual)
双対原理の双対座標としての完全証明
Friston 自由エネルギーと T 理論の正式な対応関係

自然勾配と Bregman の要点

自然勾配は Fisher 計量で「真の最急降下方向」を出す(パラメータ不変)
Bregman ダイバージェンスは凸関数から派生する非対称距離
KL ダイバージェンスは負エントロピーから派生する Bregman
Legendre 変換で θ-座標と η-座標が双対対(双対原理の候補)
Mirror Descent は Bregman 幾何で動く最適化
T 理論の中心式を Bregman で書く形式化は試論(未完了)

研究領域接続

本章は最適化と情報幾何の入口です。本格的な学習には: - Amari, "Natural Gradient Works Efficiently in Learning" (1998) - Banerjee et al., "Clustering with Bregman Divergences" (2005) - Bubeck, "Convex Optimization: Algorithms and Complexity" (2015)

確認

問:自然勾配と通常の勾配降下の違いを、認知科学的に何に喩えられますか?

解答を見る

「地図の歪みを補正した最短経路」に喩えられます。

通常の勾配:Mercator 地図で「北」を見る = 距離が歪んで見える
自然勾配:測地的地図で「真の北」を見る = 真の最短経路

認知系で言えば:

通常の勾配:自分のいま使っている表象(言語・概念)で最も下る方向
自然勾配:情報的・幾何的に真にもっとも下る方向

T 理論的に重要な含意:認知主体が異なる表象(三言語:Self/Ego/TCZ)で動いても、自然勾配の方向は不変。これは T.0 同型が幾何的に成立する数理的根拠の候補です。

確認

問:Bregman ダイバージェンスが非対称($D_F(\theta_1 \| \theta_2) \neq D_F(\theta_2 \| \theta_1)$)であることは、T 理論的に何を意味しますか?

解答を見る

認知変化の方向性を意味します。

「事前 → 事後」(学習):特定の方向に進む
「事後 → 事前」(忘却):同じ「距離」でも質的に異なる

非対称性は:

認知変化が 時間反転対称でない(熱力学第二法則と類似)
学習の道と 退行の道 が違う
一度 TCZ から離れた経路は 同じ経路で戻れる保証がない

これは Bayesian 認知の 時間方向性(arrow of time)の数理的記述。

教育的含意:学習過程を逆順に巻き戻すのは効率が悪い(同じパスを使えない)。前進する戦略の方が常に有利、という直観の根拠。

次章への接続

情報幾何での T 理論の試論的再構築が見えてきました。次章では 集合の動学(定理 6B)を spectral graph theoryで深掘りします。Laplacian 行列の固有値スペクトルが集合の収束を決める枠組みです。