第 20 章確率制御所要約 22 分前提:Ch19

Stochastic Lyapunov と HJB 方程式

前章の SDE と伊藤の補題を使い、本章では確率最適制御問題を Hamilton-Jacobi-Bellman 方程式で解く枠組みを組み立てます。これにより T 理論の中心式を確率動学版に厳密に拡張できます。

確率最適制御問題の標準形

前章で導入した問題:

$$ J(x, t) = \min_{u(\cdot)} \mathbb{E}\left[ \int_t^T V(x_s, u_s)\, ds \;\Big|\; x_t = x \right] $$

subject to:

$$ dx_s = f(x_s, u_s)\, ds + \sigma(x_s, u_s)\, dW_s $$

$J(x, t)$ は value function(価値関数)= 「いま $x$、時刻 $t$ にいる時の今後の最小期待累積コスト」。

T 理論では $J$ そのものが Lyapunov 関数 $\Phi$ として機能します(中級編 §11 の評価関数型)。

Bellman の最適性原理

動的計画法の核心:

最適政策のある時点以降の部分は、その時点から見て最適

数式で:

$$ J(x, t) = \min_u \mathbb{E}\big[V(x, u)\, \Delta t + J(x_{t+\Delta t}, t+\Delta t) \mid x_t = x\big] $$

$\Delta t \to 0$ の極限を取ることで、HJB 方程式が出ます。

HJB 方程式の導出

伊藤の補題を $J(x_t, t)$ に適用:

$$ dJ = \Big(\frac{\partial J}{\partial t} + \nabla J \cdot f + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\Big)\, dt + \nabla J \cdot \sigma\, dW $$

期待値の動学:

$$ \frac{d\mathbb{E}[J]}{dt} = \mathbb{E}\Big[\frac{\partial J}{\partial t} + \nabla J \cdot f + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\Big] $$

最適性原理から $\frac{d\mathbb{E}[J]}{dt} = -V$(各瞬間の即時コストを引く)、つまり:

$$ \boxed{\frac{\partial J}{\partial t} + \min_u \big[V(x, u) + \nabla J \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)\big] = 0} $$

これが HJB 方程式(stochastic Hamilton-Jacobi-Bellman equation)。

境界条件:$J(x, T) = 0$(時刻 T で終わる)。

HJB の意味

HJB 方程式は 偏微分方程式(PDE)で、$J(x, t)$ を全領域で同時に決める。各点で:

$$ -\frac{\partial J}{\partial t} = \min_u \mathcal{H}(x, u, \nabla J, \nabla^2 J) $$

ここで Hamiltonian $\mathcal{H}$:

$$ \mathcal{H}(x, u, p, M) = V(x, u) + p \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top M) $$

最適制御は:

$$ u^*(x, t) = \arg\min_u \mathcal{H}(x, u, \nabla J, \nabla^2 J) $$

Hamiltonian が最小化される $u$ が最適政策。

Stochastic Lyapunov 解析との接続

前章で見た「$\mathcal{L}\Phi \le -\lambda \Phi$ なら $\mathbb{E}[\Phi] \le \Phi(0) e^{-\lambda t}$」を HJB の言葉で書き直すと:

$$ \mathcal{L}_u \Phi := \nabla \Phi \cdot f(x, u) + \tfrac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 \Phi) $$

(前章の生成作用素を制御 $u$ 込みに拡張)

$\Phi$ を Lyapunov 関数として、$\mathcal{L}_{u^*}\Phi \le -\lambda \Phi$ となる制御 $u^*$ を選べば、期待値レベルで指数収束。

これが 確率版 T 理論の証明骨格です。

認知系での解釈

HJB 方程式の各項を認知系で読み解くと:

項	認知系での意味
$\partial J / \partial t$	価値関数の時間変化(計画地平 T が近づく緊張)
$\nabla J \cdot f$	制御がもたらす価値変化(意図的な勾配降下)
$\frac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)$	ノイズ + 価値関数の凸性による補正
$\min_u$	制御の最適化(意思決定)

第三項の意味:価値関数 $J$ が凸なら($\nabla^2 J > 0$)、ノイズは 価値関数を上昇させる(平均的に状況を悪化させる)。逆に凹なら($\nabla^2 J < 0$)、ノイズは 状況を改善する(リスク選好が利得を生む)方向。

これは認知心理学の risk aversion vs risk seeking の数理的記述と直結します。

Verification 定理

HJB 方程式の解 $\bar{J}(x, t)$ が見つかった時、それが 真の value function であることを保証する条件:

Verification Theorem(Fleming-Soner): $\bar{J} \in C^{1,2}$ で HJB 方程式と境界条件を満たし、$\arg\min_u \mathcal{H}(\cdot)$ から決まる制御 $\bar{u}$ で SDE が一意解を持つなら、$\bar{J} = J$、$\bar{u} = u^*$。

これにより HJB を解いた結果が 本当に最適であると保証できる。

解の存在 — viscosity solution

HJB 方程式は 滑らかな解が存在しないことが多い(認知系では特に)。代わりに 粘性解(viscosity solution)の概念で解を捉えます。

粘性解の直観:

滑らかさを要求しない弱い解の概念
上下から $C^2$ 関数で近似できる
物理的な解(滑らかでない場合の極限)と一致する

T 理論の認知系での価値関数は、しばしば 不連続な決定境界(例:行く / 行かないの二値選択点)を持つので、粘性解の枠組みが必要になります。

強化学習との接続

機械学習における 強化学習(RL) の Bellman 方程式は HJB の離散版です:

$$ J(x) = \min_u \big[V(x, u) + \mathbb{E}[J(x') \mid x, u]\big] $$

T 理論を RL の文脈に置くと:

Value Iteration / Q-learning が T 理論の数値計算実装に対応
Policy Gradient が中心式 $\tilde{V}_E$ への直接最適化に対応
Actor-Critic が定理6A の二層構造(Q_+ × E)に対応

これは T 理論を AI 実装する時の標準的道具立てになります。

次元の呪い(curse of dimensionality)

HJB は高次元状態空間で 計算量が指数爆発する重大な問題を持ちます:

1 次元状態 → 解ける
5 次元 → 大変だが可能
100 次元 → 直接解は不可能

T 理論で多世界 W は 非常に高次元(または無限次元)なので、HJB を直接解くのは現実的でない。代替戦略:

近似動的計画法(approximate DP)
deep RL(neural network で $J$ を近似)
mean-field 近似(後の章 §24)
線形化と局所解

これらは T 理論の 数値計算的実装の研究フロンティアです。

Pontryagin 最大原理(双対視点)

HJB の双対として Pontryagin の最大原理があります。HJB は value function に焦点(価値の偏微分方程式)、Pontryagin は 共役状態(co-state) λ に焦点(常微分方程式の系)。

Pontryagin の最大原理:

$$ \dot{x} = \frac{\partial \mathcal{H}}{\partial \lambda}, \quad \dot{\lambda} = -\frac{\partial \mathcal{H}}{\partial x}, \quad u^* = \arg\min_u \mathcal{H} $$

T 理論的には、Hamiltonian の構造が エネルギーと運動量の対として認知系を捉える視点を提供します。両者は 同型な解を出すので、問題に応じて使い分けます。

開かれた研究問題

T 理論を SDE + HJB で完全に再構築する作業には次の難所:

認知系での $\sigma$ の物理的意味:何がノイズで何がドリフトか
多世界 W の高次元化:HJB の次元の呪いをどう回避するか
粘性解の認知的解釈:不連続な決定境界の意味
Pontryagin 最大原理の認知系適用:どの量が co-state か

これらは将来の研究課題として開いています。

確率最適制御の要点

確率版 value function $J(x, t)$ は HJB 偏微分方程式を満たす
伊藤の補題で導出される(二次変分項を含む)
解は 粘性解(滑らかでない解の枠組み)で捉える
Verification Theorem で HJB の解が真の最適であることを保証
高次元では 次元の呪いで直接解は困難
Pontryagin 最大原理は双対的な視点を提供
強化学習が T 理論の数値実装の道具立てになる

研究領域接続

本章は確率制御の入口です。本格的な学習には: - Fleming & Soner, "Controlled Markov Processes and Viscosity Solutions" (2006) - Yong & Zhou, "Stochastic Controls" (1999) - Bertsekas, "Dynamic Programming and Optimal Control" (2017) T 理論を確率最適制御として 形式的に展開することは未完の研究課題です。

確認

問:HJB の第三項 $\frac{1}{2}\mathrm{tr}(\sigma\sigma^\top \nabla^2 J)$ は、認知系で何を表していますか?

解答を見る

ノイズと価値関数の凸性の相互作用 = 「リスクの感じ方」を表します。

$\nabla^2 J > 0$(凸):ノイズによる平均的な価値関数の上昇 = リスク回避傾向
$\nabla^2 J < 0$(凹):ノイズによる平均的な価値関数の低下 = リスク選好傾向

直観:不確実性のもと、慎重な人(凸な $J$)はノイズを敵と感じ、冒険的な人(凹な $J$)はノイズを味方と感じる。

T 理論的には、個人の リスク選好性が Lyapunov 関数 $J$ の 二階微分の符号 で数理的に記述される、という含意。コーチング介入で「リスク許容度を変える」とは、$\nabla^2 J$ の符号や大きさに介入する作業。

確認

問:HJB の「次元の呪い」を T 理論的に回避する戦略を、本章の選択肢から1つ選んで説明してください。

解答を見る

Mean-field 近似(後の章 §24)が認知系で最も自然です。

理由:

T 理論は 個人の動学だけでなく集合の動学(定理6B)も扱う
高次元の集合 $\{E_i\}_{i=1}^N$ を平均場 $\bar{E} = \frac{1}{N}\sum E_i$ に縮約することで次元を減らせる
これは社会ネットワーク科学・統計物理学の標準テクニック

具体的に:

多体問題($N$ 人の HJB)を 代表エージェントの HJB + 平均場フィードバックに縮約
計算量が $O(\exp(N))$ から $O(\mathrm{poly}(1))$ に減る

これは Lasry-Lions の Mean Field Games(MFG) 理論で形式化されています。T 理論を MFG として再定式化する作業は、確率版 T 理論の自然な発展方向。

次章への接続

確率動学が用意できました。次に 情報幾何に進み、Bayesian 推論と Lyapunov 解析を 統計多様体上の幾何として再記述する道具を組み立てます。Fisher 計量と Bregman ダイバージェンスが主役です。