数式とPython実装から理解するオフライン強化学習

オフライン強化学習は、過去に収集されたデータのみを用いてエージェントの学習を行う技術であり、実環境での試行錯誤が困難な場面で特に有用です。例えば医療やロボティクスの分野では、安全性やコストの観点からオンラインでの直接的な試行が難しいため、オフライン強化学習が注目されています。

本記事では、オフライン強化学習の基本的な考え方を数式を通して丁寧に解説し、それをPythonのコードで実装する流れを初心者向けに示します。数式で理論を理解し、コードで動作を確認することで、より深い理解を目指しましょう。

この記事で学べることは以下の通りです。

オフライン強化学習の基本的な数式表現
代表的なオフライン強化学習アルゴリズムの概要
Pythonを使った簡単な実装例

まずは強化学習の基礎である価値関数の定義から始め、オフライン環境での学習がどのように行われるかを見ていきます。例えば、状態$ s $における行動価値関数は以下のように表されます。

\[
Q^\pi(s,a) = \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t r_{t} \mid s_0=s, a_0=a, \pi \right]
\]

この式は、ポリシー$ \pi $に従って行動した際に得られる割引累積報酬の期待値を示しています。オフライン強化学習では、この価値関数を既存のデータセットから推定していきます。

まとめと次のステップ

この記事では、オフライン強化学習の基礎を数式とPythonコードの両面から解説しました。数式の意味を理解し、実装例を動かすことで、オフライン環境での強化学習の特徴や注意点を掴んでいただけたと思います。特に、過去のデータのみに依存するため、分布のずれや過学習に注意しながら学習を進める必要がある点が重要です。

今後は、より高度なアルゴリズムや実践的な応用例に触れていくことで、オフライン強化学習の理解をさらに深められます。また、強化学習全般の基礎知識とオンライン強化学習との違いを比較することも理解を助けます。

次に読むと良い関連記事候補の観点は、「オフライン強化学習のアルゴリズム比較と応用事例」です。これにより、実際の利用シーンでどの手法を選べば良いかの判断材料が増えるでしょう。

オフライン強化学習の代表的アルゴリズムの詳細解説記事
オンライン強化学習との違いを学べる入門記事
実際のデータセットを用いたオフライン強化学習のハンズオンチュートリアル

オフライン強化学習とは何か

オフライン強化学習は、事前に収集されたデータセットのみを用いてエージェントの最適な行動方針（ポリシー）を学習する手法です。通常の強化学習が環境とリアルタイムにインタラクションを繰り返しながら学習するのに対し、オフライン強化学習は「既に集められたデータ」だけで学習を完結させる点が特徴です。

このアプローチは、実際の環境との試行錯誤が困難・コスト高・危険を伴う場合に特に有効です。例えば医療や産業現場、自動運転など、直接の環境操作が難しいシナリオで注目されています。

数式で表すと、強化学習の基本はマルコフ決定過程（MDP）に基づき、状態 $ s $ と行動 $ a $ の組み合わせから報酬 $ r $ を得て、将来の累積報酬を最大化する方針を学習します。オフライン強化学習では、環境からの直接サンプル取得ができないため、以下のようなデータセット

\[
\mathcal{D} = \{(s_i, a_i, r_i, s’_i)\}_{i=1}^N
\]

を用います。ここで、各データは状態 $ s_i $、行動 $ a_i $、報酬 $ r_i $、遷移先の状態 $ s’_i $ の四つ組です。このデータから、価値関数やポリシーを推定していきます。

簡単な実装例として、Q関数の更新を行うバッチ学習のイメージコードを示します。ここではDQN（Deep Q-Network）の更新式を用いますが、環境との相互作用は行いません。

import numpy as np

# バッチデータ (状態, 行動, 報酬, 次状態)
batch = [
    (np.array([1.0, 0.5]), 0, 1.0, np.array([1.2, 0.4])),
    (np.array([0.3, 1.1]), 1, 0.0, np.array([0.4, 1.0])),
    # ... 追加データ
]

# Q関数（状態と行動から価値を予測）
def q_function(s, a):
    # 仮のQ値計算（実際はニューラルネットなど）
    return np.dot(s, np.array([0.5, -0.2])) + a

gamma = 0.99  # 割引率
learning_rate = 0.1

for s, a, r, s_next in batch:
    q_current = q_function(s, a)
    q_next = max(q_function(s_next, 0), q_function(s_next, 1))
    target = r + gamma * q_next
    # Q値の更新（単純な例）
    q_updated = q_current + learning_rate * (target - q_current)
    print(f"更新前Q値: {q_current:.3f}, 更新後Q値: {q_updated:.3f}")

この例は非常に単純化していますが、オフライン強化学習の基本的な考え方を示しています。リアルタイムの環境インタラクションがなくても、蓄積されたデータからポリシー改善が可能であることが理解できるでしょう。

関連記事

オフライン強化学習の基本概念

オフライン強化学習（Offline Reinforcement Learning）は、事前に収集されたデータセットのみを用いてエージェントの学習を行う手法です。従来の強化学習は環境との直接的なインタラクションを通じて学習を進めますが、オフライン強化学習では新たな環境との試行錯誤ができない状況下で、効率的かつ安全にポリシー（行動方針）を最適化することを目指します。

基本的な強化学習の枠組みを簡単に振り返ると、エージェントは状態 $ s \in \mathcal{S} $ に基づいて行動 $ a \in \mathcal{A} $ を選択し、環境から報酬 $ r \in \mathbb{R} $ と次の状態 $ s’ $ を受け取ります。目的は将来的な報酬の期待値を最大化するポリシー $ \pi(a|s) $ を学ぶことです。そのために、行動価値関数（Q関数）を利用することが一般的です：

\[ Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_{t} \mid s_0 = s, a_0 = a \right] \]

ここで、割引率 $ \gamma \in [0,1) $ は将来の報酬の重要度を調整します。

オフライン強化学習の特徴は、学習に使うデータが「既に収集された固定のデータセット」である点です。つまり、環境と直接やりとりせずに、過去の行動と報酬の履歴から最適なポリシーを推定します。これは、医療や自動運転など、実験がコスト高や危険を伴う分野で特に重要です。

オフライン強化学習では、データの分布が学習中のポリシーと異なるため、分布のずれ（distributional shift）が問題となります。そのため、過度に未知の行動を選択しないよう制御する工夫が必要です。

ここで簡単なPythonコード例を通して、Q関数の更新式を見てみましょう。強化学習の代表的なアルゴリズム、Q学習の更新式は以下のように表されます：

Q[s,a] = Q[s,a] + alpha * (r + gamma * max(Q[s_prime]) - Q[s,a])

式の意味は、現在のQ値を、実際に得られた報酬と将来の最大Q値（=最適行動の価値）を使って少しずつ更新することです。オフライン強化学習では、このような更新を固定データに対して何度も行い、ポリシーを改良していきます。

まとめると、オフライン強化学習は次のポイントを押さえることが重要です：

既存のデータセットのみで学習を行う
環境との新たなインタラクションができない状況に対応
分布のずれに注意し、未知の行動を慎重に扱う
Q関数などの価値関数を活用してポリシーを評価・改善

これらの基本概念を理解することで、オフライン強化学習の応用や数式の理解がよりスムーズになります。

オフライン強化学習とオンライン強化学習の違い

強化学習には大きく分けて「オンライン強化学習」と「オフライン強化学習」の２種類があります。特にデータサイエンス初心者の方にとっては、この二つの違いを理解することが重要です。

まず、オンライン強化学習はエージェントが環境と直接やり取りしながら試行錯誤を繰り返し、リアルタイムで行動方針（ポリシー）を改善していく手法です。例えば、ゲームをプレイして学習するAIが典型的な例です。エージェントは現在の状態 $ s $ を観測し、行動 $ a $ を選択し、その結果として報酬 $ r $ と次の状態 $ s’ $ を得ます。このサイクルを通じて、行動価値関数 $ Q(s, a) $ を更新します。

一方、オフライン強化学習はあらかじめ収集されたデータセットのみを用いて学習を進める方法です。実際の環境とのインタラクションを行わず、過去の経験データから最適な行動方針を導き出します。これにより、安全性確保やコスト削減が可能ですが、未知の環境での応用には注意が必要です。

この違いを数式で表すと、オンライン強化学習では次のような更新式が一般的です：

Q(s, a) &lt;- Q(s, a) + \alpha \left( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right)

ここで、
– $ \alpha $ は学習率
– $ \gamma $ は割引率
– $ r $ は報酬
– $ s, a $ は現在の状態と行動、$ s’ $ は次の状態
を表します。

オフライン強化学習では、環境からの新たなフィードバックがないため、データセットの分布外の行動を推奨しすぎないように制約を加えたり、行動の分布を保つことが重要になります。

以下は簡単なQ学習のオンライン更新のPythonコード例です。オフライン強化学習ではこの更新をデータセットの範囲内で慎重に適用していきます。

def q_learning_update(Q, state, action, reward, next_state, alpha, gamma):
    max_next = max(Q.get((next_state, a), 0) for a in possible_actions)
    Q[(state, action)] = Q.get((state, action), 0) + alpha * (reward + gamma * max_next - Q.get((state, action), 0))

まとめると、

オンライン強化学習は環境と直接相互作用しながら学習を行う
オフライン強化学習は既存のデータセットから学習し、新たな環境との試行錯誤は行わない
オフラインではデータの偏りや未経験領域への対応が重要な課題となる

このように、オフライン強化学習は安全性や実用性の面で注目されていますが、その特性を理解して適切に使うことが求められます。

オフライン強化学習のメリットとデメリット

オフライン強化学習は、事前に収集されたデータセットを用いてエージェントを学習させる手法です。この特徴により、オンラインで直接環境とやり取りしながら学習する従来の強化学習とは異なる利点と課題があります。ここでは初心者の方にもわかりやすく、オフライン強化学習のメリットとデメリットを解説します。

メリット

安全性の確保：実際の環境で試行錯誤するリスクを減らせます。特に医療やロボティクスなど、失敗が重大な影響を及ぼす領域で有効です。
コスト削減：環境との対話回数を減らすため、実験にかかる時間やコストを抑えられます。シミュレーションでは再現困難な実データを活用できる点も魅力です。
過去のデータ活用：既に集められた大量のログやトラフィックデータを活かして学習できるため、新たなデータ収集の負担を軽減します。

デメリット

分布シフトの問題：オフラインデータの分布と実際の環境の分布が異なると、学習したポリシーが期待通りに動作しないことがあります。これを分布シフトと言います。
探索の欠如：データ収集時の行動範囲に制限があるため、新しい戦略や未経験の状態に対する学習が難しくなります。
バイアスの影響：収集データの偏りが学習結果に悪影響を及ぼす可能性があり、性能の向上に制約が生じることがあります。

これらを踏まえ、オフライン強化学習ではデータの質と多様性を工夫しつつ、安定的にポリシーを学習する技術が重要です。具体的には、オフラインデータから得られる状態行動対 $(s, a)$ と報酬 $r$ を用いて、以下のような価値関数の近似を行います。

import numpy as np

# 状態s, 行動a, 報酬rのサンプルデータ
states = np.array([[0.1, 0.2], [0.4, 0.5]])
actions = np.array([0, 1])
rewards = np.array([1.0, 0.5])

# 簡単な価値関数Qの近似（ここでは単純な線形結合）
def Q_function(s, a, weights):
    return np.dot(s, weights[a])

weights = [np.array([2.0, 3.0]), np.array([1.0, 4.0])]

for s, a in zip(states, actions):
    q_val = Q_function(s, a, weights)
    print(f"状態 {s} で行動 {a} の価値Q: {q_val:.2f}")

このようにオフライン強化学習は、過去データから価値関数を学習し、安定したポリシーを生成することを目指します。ただし、データの偏りや未知の状況への対応力を高めるための工夫が求められる点を理解しておきましょう。

強化学習の数式基礎

強化学習はエージェントが環境と相互作用しながら最適な行動を学習する枠組みです。ここではまず、強化学習の基本的な数式を用いて、その仕組みを理解しましょう。特にオフライン強化学習では、事前に収集されたデータを活用してポリシーを改善するため、基礎的な数理の理解が重要です。

強化学習の核心は「価値関数」です。価値関数は、ある状態 $ s $ において、将来得られる報酬の期待値を表します。代表的な価値関数には「状態価値関数」と「行動価値関数」がありますが、ここでは行動価値関数 $ Q(s,a) $ を取り上げます。これは状態 $ s $ で行動 $ a $ をとったときに得られる期待報酬です。

行動価値関数は次のベルマン方程式で定義されます：

\[
Q^\pi(s,a) = \mathbb{E}_{s’, r} \left[ r + \gamma \mathbb{E}_{a’ \sim \pi} [Q^\pi(s’, a’)] \right]
\]

ここで、

$ \pi $: エージェントの方策（行動選択のルール）
$ r $: 現在の報酬
$ \gamma \in [0,1) $: 割引率（将来の報酬を現在価値に換算）
$ s’ $: 次の状態
$ a’ $: 次の行動

式の意味を簡単に解釈すると、「今の状態・行動の価値は、得られる即時報酬と、次の状態での期待される価値の割引和の合計である」となります。強化学習アルゴリズムはこの式を利用して、価値関数を反復的に推定し、最適な行動方針を探索します。

Pythonで簡単な価値関数の更新を実装すると以下のようになります。ここでは経験データとして \texttt{state}, \texttt{action}, \texttt{reward}, \texttt{next\_state} が与えられ、学習率 $\alpha$ と割引率 $\gamma$ を使ってQ値を更新します。

Q[state, action] = Q[state, action] + alpha * (reward + gamma * max(Q[next_state]) - Q[state, action])

この更新式はQ学習と呼ばれ、オフライン強化学習で使われる基本的な方策評価の一例です。オフライン強化学習では、このような式を用いて既存のデータセットから価値関数を学習し、未知の環境での行動選択に活かします。

以上の数式と簡単なコード例を踏まえ、オフライン強化学習のアルゴリズム設計の土台を理解していきましょう。

マルコフ決定過程（MDP）の理解

オフライン強化学習を理解するための基礎として、まずマルコフ決定過程（MDP）について学びましょう。MDPは強化学習の枠組みの中心であり、エージェントが環境と相互作用しながら最適な行動を学ぶための数理モデルです。

MDPは以下の4つの要素で構成されます。

状態（State, $ S $）: エージェントが現在いる環境の状況を表します。
行動（Action, $ A $）: エージェントが取ることができる選択肢です。
遷移確率（Transition Probability, $ P(s’|s,a) $）: 状態 $ s $ で行動 $ a $ を取ったとき、次の状態が $ s’ $ になる確率を示します。
報酬（Reward, $ R(s,a) $）: 行動 $ a $ を状態 $ s $ で取った際に得られる価値です。

これらを数学的にまとめると、MDPは5つ組として定義されます。

\[
\mathcal{M} = (S, A, P, R, \gamma)
\]

ここで、$\gamma$ は将来の報酬に対する割引率であり、0から1の間の値を取ります。割引率は、遠い将来よりも近い将来の報酬を重視するために使われます。

MDPの目的は、ある状態から始めて将来的に得られる報酬の期待値を最大化する「方策（Policy, $\pi$）」を見つけることです。方策は状態から行動を選ぶ確率分布を表し、$\pi(a|s)$ と書きます。

期待される累積報酬（価値関数）を表す代表的な式は以下の通りです。

\[
V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s \right]
\]

これは、「方策 $\pi$ に従って行動したとき、状態 $ s $ から始めて得られる割引報酬の期待値」を意味します。

実際のPythonコードで、簡単なMDPの状態遷移をシミュレートする例を示します。

import numpy as np

# 状態数と行動数を定義
num_states = 3
num_actions = 2

# 遷移確率 P[s, a, s']
P = np.array([
    [[0.8, 0.2, 0.0], [0.1, 0.9, 0.0]],
    [[0.0, 0.7, 0.3], [0.0, 0.0, 1.0]],
    [[0.0, 0.0, 1.0], [0.0, 0.0, 1.0]]
])

# 報酬 R[s, a]
R = np.array([
    [1, 0],
    [0, 2],
    [0, 0]
])

def step(state, action):
    next_state = np.random.choice(num_states, p=P[state, action])
    reward = R[state, action]
    return next_state, reward

# 状態0から行動1を実行する例
state = 0
action = 1
next_state, reward = step(state, action)
print(f"現在の状態: {state}, 行動: {action}, 次の状態: {next_state}, 報酬: {reward}")

このコードは、現在の状態と行動から次の状態を遷移確率に基づいてサンプリングし、報酬を返します。オフライン強化学習では、このような環境との直接対話ができないため、過去の行動・状態・報酬の記録から学習する点が特徴です。

オフライン強化学習における報酬関数の役割

オフライン強化学習では、エージェントが環境と直接やり取りすることなく、過去に収集されたデータのみを用いて学習を進めます。そのため、報酬関数はエージェントの行動価値を正確に評価するための重要な役割を担います。報酬関数が適切でなければ、得られたデータから正しい行動戦略を導くことが難しくなります。

強化学習における報酬関数は、状態 $s$ と行動 $a$ に対してその価値を数値で示します。特にオフライン強化学習では、以下の期待累積報酬（価値関数）を最大化することが目的です。

価値関数 $Q^\pi(s,a)$ は、方策 $\pi$ に従って行動したときに得られる報酬の期待値を表し、以下のように定義されます。

\[
Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \mid s_0 = s, a_0 = a \right]
\]

ここで、$\gamma$ は割引率、$r(s_t, a_t)$ は時刻 $t$ における報酬関数の値です。オフライン強化学習では、この報酬関数を用いて過去の行動履歴から最適な方策を推定します。

以下は、簡単な報酬関数と価値関数の更新を模したPythonコード例です。報酬関数は状態と行動の組み合わせから数値を返し、価値関数はQ値を更新するために使われます。

import numpy as np

# 状態と行動の組み合わせに対する報酬関数の例
def reward_function(state, action):
    if state == 'A' and action == 'left':
        return 1.0
    elif state == 'B' and action == 'right':
        return 0.5
    else:
        return 0.0

# 簡単なQ値更新の例
def update_q_value(Q, state, action, reward, gamma=0.9):
    # 将来の期待報酬（ここでは仮に0とする）
    future_value = 0
    Q[(state, action)] = reward + gamma * future_value
    return Q

Q = {}
state, action = 'A', 'left'
r = reward_function(state, action)
Q = update_q_value(Q, state, action, r)
print(f"Q値({state}, {action}): {Q[(state, action)]}")

このように、報酬関数はオフライン強化学習において、データから「どの行動が良いか」を判断するための基準となります。適切な報酬設計が、効率的かつ正確な学習の鍵を握っています。

オフラインデータの収集とその重要性

オフライン強化学習では、あらかじめ集められたデータセットをもとにエージェントを学習させます。このため、オフラインデータの質と量が学習の成否を大きく左右します。オンライン強化学習のように環境と直接やり取りしながら学習できないため、収集されたデータに含まれる情報が限られてしまう点が特徴です。

具体的には、ある状態 $ s $ における行動 $ a $ と、その結果得られる報酬 $ r $、次の状態 $ s’ $ の3つの組み合わせが記録されます。これを数式で表すと、データセットは以下のようになります。

データセット $\mathcal{D}$ は

\[
\mathcal{D} = \{(s_i, a_i, r_i, s’_i)\}_{i=1}^N
\]

の形で表され、$N$ はデータの総数です。このデータを使って、状態価値関数や行動価値関数を推定し、最適な行動方針（ポリシー）を学習します。

例えば、行動価値関数 $ Q(s,a) $ はベルマン方程式のオフライン版を利用して更新されます。オフライン強化学習では、環境から直接サンプルを得られないため、以下のような更新式を用いることが多いです。

\[
Q(s,a) \leftarrow r + \gamma \max_{a’} Q(s’,a’)
\]

ここで、割引率 $\gamma$ は将来の報酬の価値を調整します。オフラインデータを使う場合、こうした更新はデータセット内のサンプルに限定されるため、データの多様性やカバレッジが重要です。

次に、Pythonで簡単な更新処理を示します。ここではQテーブルの更新を模擬的に行います。

import numpy as np

# Qテーブルの初期化（状態数: 5, 行動数: 2）
Q = np.zeros((5, 2))

# オフラインデータの例 (状態, 行動, 報酬, 次状態)
dataset = [
    (0, 1, 1.0, 2),
    (2, 0, 0.5, 3),
    (3, 1, 2.0, 4),
]

gamma = 0.9  # 割引率

for s, a, r, s_next in dataset:
    Q[s, a] = r + gamma * np.max(Q[s_next])

print(Q)

このコードでは、収集したデータセットを使ってQ値を更新しています。オフライン強化学習では、このようなデータを十分に集めることが、モデルの性能向上に直結します。

まとめると、オフラインデータの収集は以下のポイントが重要です。

多様な状態・行動の組み合わせをカバーすること
報酬や遷移の情報が正確であること
データ量が十分に多いこと（一般的には多いほど良い）

これらの条件を満たしたデータを用いることで、オフライン強化学習は環境に直接アクセスできない状況でも有効に機能します。

オフライン強化学習の代表的アルゴリズム

オフライン強化学習は、事前に収集されたデータセットのみを使って方策を学習する手法です。オンライン強化学習と異なり、環境とのインタラクションが制限されているため、過剰適合や分布のずれを防ぐ工夫が必要です。ここでは、オフライン強化学習でよく使われる代表的なアルゴリズムを紹介します。

BCQ (Batch-Constrained Q-learning)
BCQは、オフラインデータから外れた行動を抑制するため、行動生成モデルを制約として導入します。具体的には、行動空間においてデータセットに近い行動だけを選ぶことで、未知の行動によるリスクを減らします。
CQL (Conservative Q-Learning)
CQLはQ関数の過大評価を抑えるため、期待値の下限を保つ形で学習を行います。これにより、オフラインデータにない行動への過信を防ぎ、安定した方策を得られます。
EDAC (Ensemble Diversified Actor-Critic)
EDACは複数のQ関数を用いるアンサンブル学習を行い、不確実性を評価しながら保守的な方策学習を実現します。これにより、過剰な探索を抑えつつ性能向上を図ります。

ここでは、CQLの基本的な数式と簡単なPython実装例を示します。

CQLの数式とPython実装例

CQLの目的は、Q関数の期待値を保守的に推定することです。損失関数は以下のように表されます。

\[
\mathcal{L}_{\text{CQL}}(Q) = \mathbb{E}_{s,a \sim \mathcal{D}} \left[ \left(Q(s,a) – \hat{Q}(s,a)\right)^2 \right] + \alpha \left( \mathbb{E}_{s \sim \mathcal{D}, a \sim \pi_{\text{max}}} [Q(s,a)] – \mathbb{E}_{s,a \sim \mathcal{D}} [Q(s,a)] \right)
\]

ここで、$\mathcal{D}$ はオフラインデータセット、$\hat{Q}$ はターゲットQ値、$\pi_{\text{max}}$ は最大化行動の方策、$\alpha$ は保守性を調整するハイパーパラメータです。損失の後半はデータ外の行動に対してQ値を抑制し、過大評価を防ぎます。

以下はCQLの損失計算を模したシンプルなPythonコード例です。

import numpy as np

def cql_loss(Q_values, target_Q_values, alpha=0.1):
    # Q_values: オフラインデータセットでのQ値のnumpy配列
    # target_Q_values: ターゲットQ値のnumpy配列
    # alpha: 保守性の重み

    data_loss = np.mean((Q_values - target_Q_values) ** 2)
    # 行動空間上での最大Q値の期待値（ここでは単純化のため最大値を使用）
    max_Q = np.max(Q_values, axis=1)
    conservative_term = np.mean(max_Q) - np.mean(Q_values)
    total_loss = data_loss + alpha * conservative_term
    return total_loss

# 例として乱数でQ値を生成
Q_values = np.random.rand(100, 10)  # 100サンプル、10行動
target_Q_values = np.random.rand(100, 10)

loss = cql_loss(Q_values, target_Q_values)
print(f"CQL損失: {loss:.4f}")

このように、オフライン強化学習ではデータ外の行動に対する過大評価を防ぐ工夫が重要です。BCQやEDACなども同様に、保守的な学習を行うことで安定した方策を実現しています。これらのアルゴリズムを理解し、適切に実装することで、オフライン環境でも効果的な強化学習モデルの構築が可能になります。

Fitted Q Iteration（FQI）

オフライン強化学習の代表的な手法の一つにFitted Q Iteration（FQI）があります。FQIは、事前に収集されたデータセットを用いて、行動価値関数Qを反復的に近似していくアルゴリズムです。これにより、環境とのオンライン対話なしに最適な行動方針（ポリシー）を学習できます。

まず、強化学習の基本的な目標は、状態$ s $における行動$ a $の価値を示す関数$ Q(s,a) $を求めることです。FQIでは、次のベルマン方程式に基づいた更新を繰り返します。

\[
Q_{k+1}(s,a) = \mathbb{E}_{s’} \left[ r + \gamma \max_{a’} Q_k(s’, a’) \mid s,a \right]
\]

ここで、

$ r $ は現在の報酬
$ \gamma $ は割引率（未来の報酬の重要度を示す）
$ s’ $ は次の状態

FQIでは、この更新式を収集済みのデータセット（状態、行動、報酬、次状態のセット）に対して繰り返し適用し、関数近似器（例えば決定木やニューラルネットワーク）を使って$ Q $を推定します。

具体的には以下のような流れです：

初期の関数近似器$ Q_0 $を用意する（例えば全てゼロなど）
データセットの各サンプルについて、目標値を計算する
\[
y_i = r_i + \gamma \max_{a’} Q_k(s_i’, a’)
\]
入力として状態と行動$ (s_i, a_i) $、出力として目標値$ y_i $を使い、関数近似器を再学習する
更新を繰り返し、収束を目指す

Pythonでの簡単な実装例を示します。ここでは単純な決定木回帰器を用いてFQIを1回更新するコードです。

from sklearn.tree import DecisionTreeRegressor
import numpy as np

# ダミーデータ（状態s, 行動a, 報酬r, 次状態s'）
states = np.array([[1], [2], [3]])
actions = np.array([[0], [1], [0]])
rewards = np.array([1, 0, 2])
next_states = np.array([[2], [3], [4]])
gamma = 0.9

# 初期Q関数を全てゼロとする
def q_function(s, a):
    return np.zeros(len(s))

# 次状態での最大Q値を計算
def max_q(next_s):
    # 行動空間は0,1の二択と仮定
    q_vals = []
    for a in [0, 1]:
        q_vals.append(q_function(next_s, np.array([a]*len(next_s))))
    return np.max(q_vals, axis=0)

# 目標値の計算
y = rewards + gamma * max_q(next_states)

# 入力特徴量は状態と行動の結合
X = np.hstack((states, actions))

# 決定木回帰器の学習
regressor = DecisionTreeRegressor()
regressor.fit(X, y)

このように、FQIは既存のデータから繰り返しQ関数を更新し、オフラインで効率よく最適ポリシーを学習できる強力な手法です。特に実環境での試行が難しい場合や安全性が求められる場面で活躍します。

関連記事

Batch Constrained Q-learning（BCQ）

オフライン強化学習において、既存のデータセットから安全かつ効率的にポリシーを学習することが重要です。Batch Constrained Q-learning（BCQ）は、その課題に対応する代表的な手法の一つです。BCQは、データセットに存在しない未知の行動を避け、既存のバッチデータに制約をかけることで過剰な一般化を防ぎます。

BCQは、通常のQ学習の更新ルールに加え、行動選択時に「バッチに近い行動のみを選択する」制約を設けます。具体的には、行動空間全体から最適な行動を選ぶのではなく、オフラインデータセットに含まれる行動の分布に基づいて行動候補を制限します。

数式で表すと、BCQの行動選択は以下のようになります。

\[
a^* = \arg\max_{a \in \mathcal{A}_b(s)} Q(s, a)
\]

ここで、$\mathcal{A}_b(s)$は状態$s$においてバッチデータに存在する、または類似した行動の集合を指します。つまり、Q値が最大の行動を選びつつも、その行動がバッチに制約されている点が特徴です。

BCQの実装は、以下のような構成要素からなります。

オートエンコーダーや変分オートエンコーダーを用いて、バッチ内の行動分布をモデル化し、行動候補を生成。
Qネットワークによる価値関数の学習。
行動候補の中からQ値が最大のものを選択。

簡単なPythonコード例を示します。

import torch
import torch.nn.functional as F

def select_action(state, action_candidates, q_network):
    # 各候補行動のQ値を計算
    q_values = q_network(state, action_candidates)
    # Q値が最大のインデックスを取得
    max_idx = torch.argmax(q_values)
    # 最適な行動を返す
    return action_candidates[max_idx]

このように、BCQはオフライン強化学習の課題である「未知の行動に対する不確実性」を抑制し、既存データの範囲内で合理的な行動選択を実現します。オフライン強化学習を学ぶ上で、BCQは非常に重要なアプローチです。

Pythonで始めるオフライン強化学習の環境構築

オフライン強化学習は、過去に収集されたデータセットのみを用いて学習を進める手法です。まずはPythonで実験を始めるための環境を整えていきましょう。初心者でも扱いやすいように、必要なライブラリのインストールから簡単な動作確認までを段階的に説明します。

オフライン強化学習には、データセットの読み込みやモデルの構築、評価を行うためにいくつかの主要ライブラリが必要です。特にNumPy、Pandas、PyTorch、Gym（環境シミュレーション用）、d4rl（オフライン強化学習用ベンチマークデータセット）をインストールします。以下のコマンドでまとめてインストール可能です。

pip install numpy pandas torch gym d4rl

次に、オフライン強化学習の基本的な数式を確認しましょう。オフライン強化学習では、状態 $ s $ と行動 $ a $ のペアに基づいて、価値関数 $ Q(s, a) $ を学習します。行動価値関数の代表的な更新式は以下の通りです。

\[
Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a’} Q(s’, a’) – Q(s, a) \right)
\]

ここで、

$ \alpha $ は学習率
$ r $ は報酬
$ \gamma $ は割引率
$ s’ $ は次状態
$ a’ $ は次の行動

この式はQラーニングの基本的な更新式ですが、オフライン強化学習では実際の環境とのインタラクションがなく、過去のデータからこの更新を行う点が特徴です。

では、実際にPythonコードで簡単なQ関数の初期化と更新を実装してみましょう。ここではNumPyを用います。

import numpy as np

# 状態数と行動数の定義
num_states = 5
num_actions = 2

# Qテーブルの初期化（すべてゼロ）
Q = np.zeros((num_states, num_actions))

# ハイパーパラメータ
alpha = 0.1   # 学習率
gamma = 0.9   # 割引率

# サンプルデータ（状態、行動、報酬、次状態）
s, a, r, s_next = 0, 1, 1.0, 2

# Q値の更新
Q[s, a] = Q[s, a] + alpha * (r + gamma * np.max(Q[s_next]) - Q[s, a])
print(Q)

このコードは、ある状態と行動に対してQ値を更新する基本動作を示しています。オフライン強化学習で扱うデータはこのような形で過去の経験が蓄積されており、それをもとに学習を進めます。環境構築ができたら、次は実際にオフラインデータを用いた学習アルゴリズムの実装に進みましょう。

Pythonによる基本的なオフライン強化学習の実装手順

オフライン強化学習は、環境と直接インタラクションせずに、既存のデータセットから最適なポリシーを学習する手法です。Pythonでの実装は、基本的に以下のステップで進められます。

データセットの準備：過去の状態・行動・報酬の履歴を用意します。
価値関数の定義と更新：行動価値関数 $ Q(s, a) $ を学習し、最適な行動を評価します。
ポリシーの抽出：学習した価値関数に基づき、最適ポリシーを決定します。

ここで重要な数式は、ベルマン方程式のオフライン版です。通常の強化学習では環境から次の状態をサンプリングしますが、オフライン強化学習ではデータセットの遷移のみを用います。価値関数の更新は以下の式で表現されます。

\[
Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a’} Q(s’, a’) – Q(s, a) \right)
\]

ここで、$ s, a, r, s’ $ はそれぞれ状態、行動、報酬、遷移後の状態、$ \alpha $ は学習率、$ \gamma $ は割引率です。この式は、オフラインデータから得られた遷移ごとに価値関数を更新します。

以下に、Pythonでの簡単なオフラインQ学習のイメージコードを示します。ここでは、既存の遷移データを使い、Qテーブルを更新しています。

import numpy as np

# 状態数と行動数（例）
num_states = 5
num_actions = 2

# Qテーブルの初期化
Q = np.zeros((num_states, num_actions))

# オフラインデータセット（状態, 行動, 報酬, 次状態）の例
dataset = [
    (0, 1, 1.0, 2),
    (2, 0, 0.5, 3),
    (3, 1, -1.0, 4),
    # ... 追加の遷移データ
]

alpha = 0.1  # 学習率
gamma = 0.9  # 割引率
num_epochs = 100  # データセットを繰り返し学習

for _ in range(num_epochs):
    for s, a, r, s_next in dataset:
        target = r + gamma * np.max(Q[s_next])
        Q[s, a] += alpha * (target - Q[s, a])

このように、オフライン強化学習では環境を操作せずに過去のデータのみで学習を行うため、直接環境が利用できない場合や安全性が重要なケースで有効です。初心者の方は、まずは小さな状態空間・行動空間でQ学習の基本を理解し、その後により複雑なオフライン強化学習アルゴリズムへとステップアップすることをおすすめします。

オフライン強化学習の数式をPythonで実装する方法

オフライン強化学習は、既に収集されたデータセットを用いてエージェントを学習させる手法です。オンライン強化学習と異なり、環境とのインタラクションが制限されているため、過去の経験から効率的に価値関数や方策を推定する必要があります。

ここで、オフライン強化学習で中心となるのは、状態$s$と行動$a$の価値を評価する行動価値関数 $ Q(s,a) $ です。代表的な数式は次のベルマン方程式で表されます：

\[
Q(s,a) = r(s,a) + \gamma \mathbb{E}_{s’ \sim P} \left[ \max_{a’} Q(s’, a’) \right]
\]

この式は、現在の状態$s$での即時報酬$r(s,a)$に加え、次の状態$s’$で得られる最大の価値を割引率$\gamma$で考慮したものです。オフライン強化学習では、この期待値を過去のデータから推定します。

それでは、Pythonで簡単なQ関数の更新ステップを実装してみましょう。以下のコードは、バッチデータ（状態、行動、報酬、次状態）を用いてQ関数を更新する例です。

import numpy as np

# 割引率
gamma = 0.99

# 例としてQ関数は辞書で管理（実際はニューラルネットが多い）
Q = {}

# バッチデータ（状態s, 行動a, 報酬r, 次状態s_prime）
batch = [
    (0, 1, 1.0, 1),
    (1, 0, 0.5, 2),
    (2, 1, 0.0, 3),
]

# Q関数の初期化
for s, a, _, _ in batch:
    Q[(s,a)] = 0.0

# Q関数の更新
for s, a, r, s_prime in batch:
    # 次状態での最大Q値を取得（なければ0）
    max_Q_next = max([Q.get((s_prime, a_prime), 0) for a_prime in [0,1]])
    # ベルマン期待値に基づく更新式
    Q[(s,a)] = r + gamma * max_Q_next

print("更新後のQ値:", Q)

このコードでは、まず状態と行動の組み合わせごとにQ値を初期化し、次にベルマン方程式の期待値部分をバッチ内の最大Q値から計算しています。オフライン強化学習では、このように既存のデータからQ値を反復的に更新することで、より良い方策を学習します。

初心者の方は、まずはこの基本的なQ関数の更新ロジックを理解し、次第にニューラルネットワークなどの関数近似器を用いた実装に挑戦すると良いでしょう。

実際のデータセットを用いたオフライン強化学習の例

オフライン強化学習では、あらかじめ収集されたデータセットを使用してエージェントを訓練します。ここでは、OpenAI GymのCartPole環境から収集したデータを使い、簡単なオフライン強化学習の例を示します。初心者にも理解しやすいように、数式とPythonコードを組み合わせて解説します。

まず、オフライン強化学習で重要となるのは、行動価値関数 $ Q(s, a) $ の推定です。これは状態 $ s $ で行動 $ a $ を選択した時の期待累積報酬を表します。オフライン設定では、次のベルマン最適方程式を使って $ Q $ を更新します。

\[
Q(s, a) \leftarrow r + \gamma \max_{a’} Q(s’, a’)
\]

ここで、$ s’ $ は次の状態、$ r $ は報酬、そして $ \gamma $ は割引率です。オフラインではデータセットに記録された遷移 $(s, a, r, s’)$ を利用してこの更新を行います。

以下に、簡単なPythonコードの例を示します。ここでは、Qテーブルを用いたQ学習のオフライン学習を模倣しています。

import numpy as np

# 仮のデータセット (s, a, r, s_next)
dataset = [
    (0, 1, 1, 1),
    (1, 0, 0, 0),
    (1, 1, 1, 2),
    (2, 0, 0, 2),
]

num_states = 3
num_actions = 2
Q = np.zeros((num_states, num_actions))
gamma = 0.9
alpha = 0.1  # 学習率

# オフラインQ学習の更新
for epoch in range(100):
    for s, a, r, s_next in dataset:
        target = r + gamma * np.max(Q[s_next])
        Q[s, a] += alpha * (target - Q[s, a])

print("学習後のQ値テーブル:")
print(Q)

このコードでは、あらかじめ収集された遷移データセットに対してQ値を反復的に更新しています。実際のオフライン強化学習では、より大規模なニューラルネットワークを用いて状態空間を扱うことが多いですが、初心者にはこのようにテーブルで基本の考え方を掴むのが理解への一歩です。

オフライン強化学習の評価指標とその計算方法

オフライン強化学習（Offline Reinforcement Learning）では、既存のデータセットのみを使って学習し、実際の環境で試行錯誤ができないため、モデルの性能を正確に評価することが重要です。ここでは、代表的な評価指標とその計算方法について、初心者にもわかりやすく解説します。

代表的な評価指標

期待累積報酬 (Expected Cumulative Reward)
強化学習における基本的な指標で、ある方策（policy）に従ったときに得られる報酬の合計の期待値です。評価の際は、オフラインデータから推定します。
オフポリシー評価（Off-policy Evaluation, OPE）
実際に環境で実行しないため、収集済みのデータを使って新しい方策の性能を推定する技術。重要度サンプリング（Importance Sampling）などの手法が使われます。

期待累積報酬の数式と計算例

期待累積報酬は、状態 $s$ から始めて方策 $\pi$ に従ったときの割引報酬の期待値として表されます。

数式で表すと次のようになります。

\[
V^{\pi}(s) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R_{t} \mid S_0 = s \right]
\]

ここで、

$V^{\pi}(s)$: 状態 $s$ から方策 $\pi$ に従ったときの期待累積報酬
$\gamma$: 割引率（0 < $\gamma$ < 1）
$R_t$: 時刻 $t$ で得られる報酬

オフラインデータがある場合、経験した状態・行動・報酬の軌跡を使って、この期待値をサンプル平均で近似します。

Pythonによる簡単な計算例

以下のコードは、オフラインで収集した複数の軌跡（trajectories）から期待累積報酬を計算する例です。割引率 $\gamma$ を設定し、各軌跡の報酬を割引きながら合計し、最後に平均を取ります。

def discounted_cumulative_reward(rewards, gamma):
    total = 0.0
    for t, r in enumerate(rewards):
        total += (gamma ** t) * r
    return total

# オフラインデータの軌跡例（報酬のリスト）
offline_trajectories = [
    [1, 0, 2, 3],
    [0, 1, 1, 0],
    [2, 2, 0, 1]
]

gamma = 0.9
values = [discounted_cumulative_reward(traj, gamma) for traj in offline_trajectories]
expected_value = sum(values) / len(values)
print(f"期待累積報酬の推定値: {expected_value:.2f}")

このように、オフラインデータから報酬の割引和を計算し平均することで、方策の性能を推定できます。より高度なオフポリシー評価手法もありますが、まずはこの基本的な計算を理解することが重要です。

よくある課題とその対処法

オフライン強化学習は、実際の環境とのインタラクションなしに過去のデータから学習するため、いくつか特有の課題があります。ここでは初心者が直面しやすい代表的な問題と、その対策をわかりやすく解説します。

1. 分布のずれ（Distributional Shift）

オフライン強化学習では、学習に使うデータが特定の方策（ポリシー）によって収集されています。したがって、学習中に方策が変わると、データ分布と現在の方策の行動分布がずれてしまうことがあります。この分布のずれにより、学習した価値関数や方策が誤った推定をしてしまい、性能が低下することが多いです。

この課題に対処するための基本的な考え方は、学習時にデータ分布に近い行動のみを選択・評価することです。具体的には、行動価値関数 $ Q(s,a) $ を更新する際に、以下のようにデータ分布を考慮した制約を設けます。

例えば、行動分布のずれをペナルティとして加える方法は、損失関数に以下の項を追加することが考えられます。

\[
\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s’) \sim \mathcal{D}} \left[ \left(Q_\theta(s,a) – y \right)^2 \right] + \lambda \cdot D_{\mathrm{KL}}(\pi_\theta(a|s) \| \mu(a|s))
\]

ここで、$ y = r + \gamma \mathbb{E}_{a’ \sim \pi_\theta(\cdot|s’)} [Q_{\theta^-}(s’,a’)] $、$ \mu $ はデータ収集時の方策、$ \pi_\theta $ は学習中の方策、$ D_{\mathrm{KL}} $ はKLダイバージェンス、$ \lambda $ は正則化パラメータです。これにより、学習中の方策が収集データの行動分布から大きく逸脱することを防ぎます。

2. 過剰推定バイアス（Overestimation Bias）

強化学習では、価値関数の推定に誤差があると、特にオフライン設定で過剰推定が起こりやすくなります。過剰推定は、将来得られる報酬を実際よりも高く見積もってしまい、結果として方策の性能が悪化します。

代表的な対策としては、Double Q-learningの考え方を応用し、2つの価値関数を用意して低い方を採用する方法があります。Pythonコード例を以下に示します。

import numpy as np

def double_q_update(q1, q2, s, a, r, s_next, gamma, q1_target, q2_target):
    # 次状態での行動価値を別々に評価
    a_next = np.argmax(q1_target[s_next])
    target_value = r + gamma * q2_target[s_next][a_next]
    # q1を更新
    q1[s][a] += 0.1 * (target_value - q1[s][a])
    return q1

この例では、2つの価値関数 $ Q_1, Q_2 $ のうち、一方で行動選択を行い、もう一方で評価することで過剰推定を抑えています。

3. データ不足と一般化の難しさ

オフライン強化学習は既存データに依存しているため、十分な多様性や量がないと、未知の状態や行動に対して正しく推定できません。この問題には、データ拡張やモデルベースの補完、あるいは事前学習を組み合わせる方法が効果的です。

まとめると、オフライン強化学習でよくある課題は以下のように整理できます。

分布のずれによる誤推定 → データ分布を考慮した正則化
過剰推定バイアス → Double Q-learning等のバイアス低減手法
データ不足 → データ拡張や事前学習による一般化強化

これらを意識してモデル設計や学習を進めることで、オフライン強化学習の性能向上が期待できます。

オフライン強化学習の応用事例

オフライン強化学習は、既に収集された大量のデータを活用して、環境と直接インタラクションせずに最適な行動方針を学習する手法です。特に、リアルタイムでの試行錯誤が困難な分野やコストが高い場面での応用が期待されています。ここでは、初心者にもわかりやすい代表的な応用事例を紹介します。

医療分野
患者の過去の治療データを用いて、最適な治療方針を提案することが可能です。例えば、薬の投与量や治療のタイミングを決定するために、オフライン強化学習が活用されます。直接患者に新しい治療を試すリスクを避けながら効果的な治療戦略を見つけられます。
ロボティクス
実際のロボットに試行錯誤をさせるのはコストやリスクが高いため、シミュレーションや過去の操作データを使ってロボットの動作を最適化します。例えば、倉庫内での物品のピッキング動作の効率化などに応用されています。
マーケティング・推薦システム
顧客の過去の購入履歴や行動ログをもとに、どの広告や商品を提案すれば効果的かを学習します。オンラインでの試行錯誤による顧客体験の悪化を防ぎつつ、最適なキャンペーン設計を支援します。

オフライン強化学習の基本的な考え方は、既存のデータセット $\mathcal{D} = \{(s_i, a_i, r_i, s’_i)\}$ を使って、行動価値関数 $Q(s,a)$ を推定し、最適なポリシー $\pi^*(a|s)$ を導くことです。具体的には、次のようなベルマン方程式のオフライン推定を行います：

\[
Q(s,a) = r + \gamma \max_{a’} Q(s’, a’)
\]

ここで、$s$ は状態、$a$ は行動、$r$ は報酬、$\gamma$ は割引率、$s’$ は次の状態を表します。

Pythonでの簡単な実装例を示します。ここでは、既存のデータセットからQ関数を更新する一歩のコードです。

import numpy as np

# 簡易的なQテーブル（状態数5、行動数2の例）
Q = np.zeros((5, 2))
gamma = 0.9

# サンプルデータ: (状態, 行動, 報酬, 次状態)
dataset = [
    (0, 1, 1.0, 1),
    (1, 0, 0.5, 2),
    (2, 1, 1.5, 3),
    (3, 0, 0.0, 4),
]

# オフラインQ学習の更新ステップ
for s, a, r, s_next in dataset:
    Q[s, a] = r + gamma * np.max(Q[s_next])

print("更新後のQ値テーブル:")
print(Q)

このように、オフライン強化学習では直接環境にアクセスせず、蓄積されたデータから安全かつ効率的に学習を進めることが可能です。特に高価な設備やリスクの伴う実世界問題において、非常に有用な技術と言えるでしょう。

今後のオフライン強化学習の展望

オフライン強化学習は、実際の環境における試行錯誤を行わずに、過去のデータから最適な行動方針を学習できる点で注目されています。今後の発展においては、以下のような課題と可能性が挙げられます。

データの多様性と品質の向上
オフライン強化学習の性能は利用可能なデータセットの質に大きく依存します。多様なシナリオを含む高品質なデータを収集し、偏りを減らすことが今後の鍵となります。
安全性と一般化の強化
実環境での適用時にリスクを減らすため、学習した方策の安全性や未知の状況への一般化能力向上も重要です。
理論的な理解の深化
オフライン強化学習の理論的基盤を強化し、より効率的な学習アルゴリズムの設計が期待されています。

例えば、オフライン強化学習の価値関数更新は、以下のように表されます。

価値関数 $Q$ の更新式：

\[
Q(s,a) \leftarrow r + \gamma \mathbb{E}_{a’ \sim \pi(\cdot|s’)}[Q(s’, a’)]
\]

ここで、$s, a$ は状態と行動、$r$ は報酬、$\gamma$ は割引率、$\pi$ は行動方策を表します。この更新は、オフラインデータから得られた遷移 $(s, a, r, s’)$ を用いて行われます。

この考え方をPythonで簡単に示すと以下のようになります。

def update_q(Q, s, a, r, s_next, pi, gamma=0.99):
    # 次の状態での行動分布に基づく期待値を計算
    expected_q = sum(pi(a_next, s_next) * Q.get((s_next, a_next), 0) for a_next in possible_actions)
    # 価値関数の更新
    Q[(s, a)] = r + gamma * expected_q
    return Q

今後は、このような理論と実装の両面を深め、より信頼性の高いオフライン強化学習モデルの開発が進むことでしょう。特に、医療やロボティクス、自動運転など安全性が求められる分野での応用が期待されています。

関連記事

まとめ：数式とPythonで理解するオフライン強化学習のポイント

オフライン強化学習は、事前に収集されたデータから最適な行動方針を学習する手法であり、実際の環境での試行錯誤を伴わないため安全かつ効率的です。今回の記事で紹介した数式とPython実装を通じて、初心者でもオフライン強化学習の基本的な枠組みを理解できたかと思います。

特に重要なポイントは以下の通りです。

オフポリシー学習の基礎：データは既存のポリシーから収集されるため、学習時には行動価値関数 $ Q^\pi(s,a) $ を用いて、異なるポリシー間のギャップを埋める必要があります。
ベクトル化されたベルマン方程式：オフライン学習では、数式としては

\[
Q(s,a) = r(s,a) + \gamma \mathbb{E}_{s’ \sim P} \left[ \max_{a’} Q(s’,a’) \right]
\]
のように、報酬 $ r $ と割引率 $ \gamma $ を考慮しながら価値関数を更新します。
これをPythonで実装すると以下のようになります。

import numpy as np

def update_q(Q, rewards, gamma, next_states, actions, Q_next):
    for i, (s, a, r, s_next) in enumerate(zip(states, actions, rewards, next_states)):
        Q[s, a] = r + gamma * np.max(Q_next[s_next])
    return Q

このコードは、収集した状態・行動・報酬・次状態のデータセットを使い、ベルマン方程式を反復的に適用して価値関数を更新しています。オフライン環境ではこの更新を繰り返し行い、安定したポリシーを得ることが目標です。

さらに、オフライン強化学習の成功には「分布のズレ（distributional shift）」の問題を理解し、既存のデータに含まれる状態・行動の多様性を十分に活用することが求められます。今回の解説を基に、数学的な理論と実装の両面から徐々にステップアップしていくことをおすすめします。