Stochastic Lyapunov と HJB 方程式
前章の SDE と伊藤の補題を使い、本章では確率最適制御問題を Hamilton-Jacobi-Bellman 方程式で解く枠組みを組み立てます。これにより T 理論の中心式を確率動学版に厳密に拡張できます。
確率最適制御問題の標準形
前章で導入した問題:
$$ J(x, t) = \min_{u(\cdot)} \mathbb{E}\left[ \int_t^T V(x_s, u_s)\, ds \;\Big|\; x_t = x \right] $$
subject to:
$$ dx_s = f(x_s, u_s)\, ds + \sigma(x_s, u_s)\, dW_s $$
$J(x, t)$ は value function(価値関数)= 「いま $x$、時刻 $t$ にいる時の今後の最小期待累積コスト」。
T 理論では $J$ そのものが Lyapunov 関数 $\Phi$ として機能します(中級編 §11 の評価関数型)。
Bellman の最適性原理
動的計画法の核心:
最適政策のある時点以降の部分は、その時点から見て最適
数式で:
$$ J(x, t) = \min_u \mathbb{E}\big[V(x, u)\, \Delta t + J(x_{t+\Delta t}, t+\Delta t) \mid x_t = x\big] $$
$\Delta t \to 0$ の極限を取ることで、HJB 方程式が出ます。
HJB 方程式の導出
伊藤の補題を $J(x_t, t)$ に適用:
$$ dJ = \Big(\frac{\partial J}{\partial t} + \nabla J \cdot f + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\Big)\, dt + \nabla J \cdot \sigma\, dW $$
期待値の動学:
$$ \frac{d\mathbb{E}[J]}{dt} = \mathbb{E}\Big[\frac{\partial J}{\partial t} + \nabla J \cdot f + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\Big] $$
最適性原理から $\frac{d\mathbb{E}[J]}{dt} = -V$(各瞬間の即時コストを引く)、つまり:
$$ \boxed{\frac{\partial J}{\partial t} + \min_u \big[V(x, u) + \nabla J \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\big] = 0} $$
これが HJB 方程式(stochastic Hamilton-Jacobi-Bellman equation)。
境界条件:$J(x, T) = 0$(時刻 T で終わる)。
HJB の意味
HJB 方程式は 偏微分方程式(PDE)で、$J(x, t)$ を全領域で同時に決める。各点で:
$$ -\frac{\partial J}{\partial t} = \min_u \mathcal{H}(x, u, \nabla J, \nabla^2 J) $$
ここで Hamiltonian $\mathcal{H}$:
$$ \mathcal{H}(x, u, p, M) = V(x, u) + p \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top M) $$
最適制御は:
$$ u^*(x, t) = \arg\min_u \mathcal{H}(x, u, \nabla J, \nabla^2 J) $$
Hamiltonian が最小化される $u$ が最適政策。
Stochastic Lyapunov 解析との接続
前章で見た「$\mathcal{L}\Phi \le -\lambda \Phi$ なら $\mathbb{E}[\Phi] \le \Phi(0) e^{-\lambda t}$」を HJB の言葉で書き直すと:
$$ \mathcal{L}_u \Phi := \nabla \Phi \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 \Phi) $$
(前章の生成作用素を制御 $u$ 込みに拡張)
$\Phi$ を Lyapunov 関数として、$\mathcal{L}_{u^*}\Phi \le -\lambda \Phi$ となる制御 $u^*$ を選べば、期待値レベルで指数収束。
これが 確率版 T 理論の証明骨格です。
認知系での解釈
HJB 方程式の各項を認知系で読み解くと:
| 項 | 認知系での意味 |
|---|---|
| $\partial J / \partial t$ | 価値関数の時間変化(計画地平 T が近づく緊張) |
| $\nabla J \cdot f$ | 制御がもたらす価値変化(意図的な勾配降下) |
| $\frac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)$ | ノイズ + 価値関数の凸性による補正 |
| $\min_u$ | 制御の最適化(意思決定) |
第三項の意味:価値関数 $J$ が凸なら($\nabla^2 J > 0$)、ノイズは 価値関数を上昇させる(平均的に状況を悪化させる)。逆に凹なら($\nabla^2 J < 0$)、ノイズは 状況を改善する(リスク選好が利得を生む)方向。
これは認知心理学の risk aversion vs risk seeking の数理的記述と直結します。
Verification 定理
HJB 方程式の解 $\bar{J}(x, t)$ が見つかった時、それが 真の value function であることを保証する条件:
Verification Theorem(Fleming-Soner): $\bar{J} \in C^{1,2}$ で HJB 方程式と境界条件を満たし、$\arg\min_u \mathcal{H}(\cdot)$ から決まる制御 $\bar{u}$ で SDE が一意解を持つなら、$\bar{J} = J$、$\bar{u} = u^*$。
これにより HJB を解いた結果が 本当に最適であると保証できる。
解の存在 — viscosity solution
HJB 方程式は 滑らかな解が存在しないことが多い(認知系では特に)。代わりに 粘性解(viscosity solution)の概念で解を捉えます。
粘性解の直観:
- 滑らかさを要求しない弱い解の概念
- 上下から $C^2$ 関数で近似できる
- 物理的な解(滑らかでない場合の極限)と一致する
T 理論の認知系での価値関数は、しばしば 不連続な決定境界(例:行く / 行かないの二値選択点)を持つので、粘性解の枠組みが必要になります。
強化学習との接続
機械学習における 強化学習(RL) の Bellman 方程式は HJB の離散版です:
$$ J(x) = \min_u \big[V(x, u) + \mathbb{E}[J(x') \mid x, u]\big] $$
T 理論を RL の文脈に置くと:
- Value Iteration / Q-learning が T 理論の数値計算実装に対応
- Policy Gradient が中心式 $\tilde{V}_E$ への直接最適化に対応
- Actor-Critic が定理6A の二層構造(Q_+ × E)に対応
これは T 理論を AI 実装する時の標準的道具立てになります。
次元の呪い(curse of dimensionality)
HJB は高次元状態空間で 計算量が指数爆発する重大な問題を持ちます:
- 1 次元状態 → 解ける
- 5 次元 → 大変だが可能
- 100 次元 → 直接解は不可能
T 理論で多世界 W は 非常に高次元(または無限次元)なので、HJB を直接解くのは現実的でない。代替戦略:
- 近似動的計画法(approximate DP)
- deep RL(neural network で $J$ を近似)
- mean-field 近似(後の章 §24)
- 線形化と局所解
これらは T 理論の 数値計算的実装の研究フロンティアです。
Pontryagin 最大原理(双対視点)
HJB の双対として Pontryagin の最大原理があります。HJB は value function に焦点(価値の偏微分方程式)、Pontryagin は 共役状態(co-state) λ に焦点(常微分方程式の系)。
Pontryagin の最大原理:
$$ \dot{x} = \frac{\partial \mathcal{H}}{\partial \lambda}, \quad \dot{\lambda} = -\frac{\partial \mathcal{H}}{\partial x}, \quad u^* = \arg\min_u \mathcal{H} $$
T 理論的には、Hamiltonian の構造が エネルギーと運動量の対として認知系を捉える視点を提供します。両者は 同型な解を出すので、問題に応じて使い分けます。
開かれた研究問題
T 理論を SDE + HJB で完全に再構築する作業には次の難所:
- 認知系での $\sigma$ の物理的意味:何がノイズで何がドリフトか
- 多世界 W の高次元化:HJB の次元の呪いをどう回避するか
- 粘性解の認知的解釈:不連続な決定境界の意味
- Pontryagin 最大原理の認知系適用:どの量が co-state か
これらは将来の研究課題として開いています。
- 確率版 value function $J(x, t)$ は HJB 偏微分方程式を満たす
- 伊藤の補題で導出される(二次変分項を含む)
- 解は 粘性解(滑らかでない解の枠組み)で捉える
- Verification Theorem で HJB の解が真の最適であることを保証
- 高次元では 次元の呪いで直接解は困難
- Pontryagin 最大原理は双対的な視点を提供
- 強化学習が T 理論の数値実装の道具立てになる
本章は確率制御の入口です。本格的な学習には: - Fleming & Soner, "Controlled Markov Processes and Viscosity Solutions" (2006) - Yong & Zhou, "Stochastic Controls" (1999) - Bertsekas, "Dynamic Programming and Optimal Control" (2017) T 理論を確率最適制御として 形式的に展開することは未完の研究課題です。
確認
問:HJB の第三項 $\frac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)$ は、認知系で何を表していますか?
解答を見る
ノイズと価値関数の凸性の相互作用 = 「リスクの感じ方」を表します。
- $\nabla^2 J > 0$(凸):ノイズによる平均的な価値関数の 上昇 = リスク回避傾向
- $\nabla^2 J < 0$(凹):ノイズによる平均的な価値関数の 低下 = リスク選好傾向
直観:不確実性のもと、慎重な人(凸な $J$)はノイズを敵と感じ、冒険的な人(凹な $J$)はノイズを味方と感じる。
T 理論的には、個人の リスク選好性が Lyapunov 関数 $J$ の 二階微分の符号 で数理的に記述される、という含意。コーチング介入で「リスク許容度を変える」とは、$\nabla^2 J$ の符号や大きさに介入する作業。
確認
問:HJB の「次元の呪い」を T 理論的に回避する戦略を、本章の選択肢から1つ選んで説明してください。
解答を見る
Mean-field 近似(後の章 §24)が認知系で最も自然です。
理由:
- T 理論は 個人の動学だけでなく集合の動学(定理6B)も扱う
- 高次元の集合 $\{E_i\}_{i=1}^N$ を平均場 $\bar{E} = \frac{1}{N}\sum E_i$ に縮約することで次元を減らせる
- これは社会ネットワーク科学・統計物理学の標準テクニック
具体的に:
- 多体問題($N$ 人の HJB)を 代表エージェントの HJB + 平均場フィードバックに縮約
- 計算量が $O(\exp(N))$ から $O(\mathrm{poly}(1))$ に減る
これは Lasry-Lions の Mean Field Games(MFG) 理論で形式化されています。T 理論を MFG として再定式化する作業は、確率版 T 理論の自然な発展方向。
次章への接続
確率動学が用意できました。次に 情報幾何に進み、Bayesian 推論と Lyapunov 解析を 統計多様体上の幾何として再記述する道具を組み立てます。Fisher 計量と Bregman ダイバージェンスが主役です。