9.1.6 TD-Gammon から AlphaGo へ：強化学習は Agent にどう影響したのか

強化学習から Agent への歴史的ブレークスルーマップ

なぜ Agent の講義で強化学習の歴史を学ぶのか？

Agent が気にするのは、次のようなことです。

これは、強化学習の基本問題ととてもよく似ています。

強化学習の言葉	Agent システムの言葉
state	現在のコンテキスト、タスクの状態
action	ツール呼び出し、応答、計画ステップ
reward	ユーザーのフィードバック、評価スコア、タスク完了の有無
policy	意思決定方策、ツールを呼び出すルール
environment	外部システム、知識ベース、ブラウザ、コードリポジトリ

そのため、強化学習の歴史は脇役ではありません。
Agent がなぜフィードバック、計画、試行錯誤、安全境界を気にするのかを理解する助けになります。

1992 年ごろ、Gerald Tesauro の TD-Gammon は、時系列差分学習を使ってバックギャモンで非常に高い実力を達成しました。

この手法のとても魅力的な点は次の通りです。

システムは人間の棋譜をただ真似するのではなく、大量の自己対戦を通じて、結果のフィードバックから判断を改善していきます。

初心者向けには、次のように考えると分かりやすいです。

このことは、その後の強化学習やゲーム AI にとって重要な発想を開きました。

システムが自分で経験を作れるなら、人手によるラベル付きデータに完全には縛られない。

2015 年、DeepMind の DQN は Atari ゲームでブレークスルーを起こしました。
その重要性は、深層学習と強化学習を組み合わせたことにあります。

これは、モデルに「画面を見る」ことからゲームを学ばせるようなものです。

ゲーム画面ニューラルネットワーク行動スコアのフィードバック方策を更新

これが現代の Agent に与えた示唆は次の通りです。

だからこそ、Agent の評価は普通の質問応答の評価より難しいのです。

2016 年、AlphaGo が李世乭に勝利したことで、多くの人が AI の飛躍を非常に直感的に感じました。

AlphaGo の重要な点は、「1つのニューラルネットワークがそのまま指す」ことではなく、複数の能力を組み合わせていたことです。

Agent にとって、この示唆はとても重要です。

強いシステムは、たいてい1つのモデルだけで強くなるのではなく、モデル・探索・ツール・フィードバック・制約が一緒に動いて強くなります。

現代の LLM Agent の中心は、必ずしも RL アルゴリズムではありません。
しかし、強化学習が扱ってきた多くの問題を受け継いでいます。

典型的な RL の問題	LLM Agent での対応
報酬をどう定義するか	タスク成功、引用の正しさ、ユーザー満足度をどう測るか
探索が危険ではないか	ツール呼び出しでファイルを誤削除したり、誤送信したりしないか
長期目標をどう分解するか	複数ステップのタスクをどう計画・実行・修正するか
方策をどう評価するか	Agent ベンチマーク、ログ再生、手動レビュー

そのため、後で ReAct、Plan-and-Execute、ツール呼び出し、Agent 評価を学ぶときは、次のように考えるとよいです。

これは、言語モデルの時代における「行動・フィードバック・計画」という古くて重要な問題の新しい実装だ。

歴史的な節目	解決した問題	対応する講義章
TD-Gammon	自己対戦と長期フィードバックから方策を学ぶ	9.1 Agent の歴史的背景、9.2 推論と計画
DQN / Atari	深層ネットワークが環境フィードバックから行動を学ぶ	9.8 Agent 評価、安全性、環境との相互作用
AlphaGo	学習・探索・計画を強いシステムとして統合する	9.2 計画、9.7 マルチ Agent / 複雑システム
RLHF	人間の好みでモデルの振る舞いを調整する	第7章アラインメント、9.8 安全性評価
ReAct	推論と行動を交互に行わせる	9.2 ReAct、9.3 ツール呼び出し

Agent は、「モデルを自由に動かす」だけのものではありません。
むしろ、次の要素のあいだで常にバランスを取るシステムに近いです。

TD-Gammon、DQN、AlphaGo の物語が教えてくれるのは、次のことです。
本当に強い知能システムは、ただ質問に答えるだけではなく、環境の中で行動し、そのフィードバックに応じて方策を修正できるのです。

期待される結果：行動、フィードバック、計画、安全上の制約が、TD-Gammon、DQN、AlphaGo と再生可能な LLM Agent 設計をどうつなぐか説明できる状態です。

このページを終えたら、この証拠カードを残します。

レビュー観点と通過基準

合格の目安は、歴史上のシステムを 1 つの Agent design choice に対応づけられることです。self-play は feedback data、DQN は environment actions、AlphaGo は search and planning、RLHF は preference shaping です。
goal、state、action、observation、evaluator、safety constraint を含む loop を 1 つ書くか描きます。どれかが欠けると、Agent を信頼してレビューできません。
Agent が誤った action を取った trace を 1 つ残し、原因が goal、state、tool permission、planner、evaluator のどこにあるかを説明します。
traceable Agent は、instruction が多い chatbot ではなく controlled action system だと説明できれば、このページは完了です。