9.10.1 プロジェクトロードマップ:追跡可能な Agent を作る
Agent のポートフォリオでは、最終回答だけでなく、追跡可能な実行ループを見せるべきです。
まずプロジェクトの流れを見る
Section titled “まずプロジェクトの流れを見る”


このループは、目標、計画、ツール呼び出し、観察、状態更新、失敗処理、停止判断、最終出力、評価で構成されます。
Agent の証拠チェックを動かす
Section titled “Agent の証拠チェックを動かす”ポートフォリオに載せられる状態と呼ぶ前に、このチェックを使います。
project = { "goal_defined": True, "trace_saved": True, "tool_logs": True, "failure_case": True, "eval_tasks": 10,}
ready = ( project["goal_defined"] and project["trace_saved"] and project["tool_logs"] and project["failure_case"] and project["eval_tasks"] >= 5)
print("portfolio_ready:", ready)print("evidence:", "goal, trace, tools, failure, eval")期待される出力:
portfolio_ready: Trueevidence: goal, trace, tools, failure, evalここが False なら、Agent の役割を増やす前に証拠を改善します。
この順番で学ぶ
Section titled “この順番で学ぶ”| 手順 | プロジェクト | 本当に鍛える力 |
|---|---|---|
| 1 | リサーチアシスタント | 検索、引用、要約、信頼できる出力 |
| 2 | データ分析 Agent | Python ツール呼び出し、表分析、チャート、解釈 |
| 3 | Multi-Agent 開発チーム | 役割分担、handoff、レビューループ、merge 所有権 |
| 4 | ハンズオンワークショップ | 最小の追跡可能な単一 Agent ベースライン |
プロジェクトを広げる前に、9.10.5 実践:追跡可能な単一 Agent アシスタントを作る を実行します。
このページを終えたら、この証拠カードを残します。
- プロジェクト目標
- エージェントが達成すべきことと、してはいけないこと
- ベースライン
- 高度な機能を追加する前の単一エージェントループ
- 追跡パック
- 目標、計画、ツール呼び出し、観察、メモリ、評価
- 失敗ログ
- 少なくとも1回の失敗または危険な実行と根本原因
- 成果物
- README、実行コマンド、trace スクリーンショット/ログ、次の一手
プロジェクト成果物基準
Section titled “プロジェクト成果物基準”| 成果物 | 最低要件 | 強いポートフォリオ版 |
|---|---|---|
| README | 目標、実行コマンド、依存関係、例 | アーキテクチャ、トレードオフ、コスト、安全性、ふりかえりを追加 |
| アーキテクチャ | モデル、ツール、記憶、状態、評価、安全性 | 配置境界と人への引き継ぎを追加 |
| ツール一覧 | 呼び出せるツール、入出力スキーマ、失敗 | 権限ルールとサンドボックスメモを追加 |
| 実行追跡 | 計画、行動、観察、再計画、停止 | 再生可能な JSONL ログを追加 |
| 失敗ケース | 1 件以上の実際の失敗 | 3 件の原因、修正、回帰チェックを追加 |
| 評価セット | 固定タスクと合否ルール | ベースライン、メトリクス、比較実験を追加 |
| デプロイメモ | ローカル実行方法 | API エントリ、環境変数、監視、ロールバックを追加 |
別の開発者が Agent run を replay し、各 tool call と observation を inspect し、なぜ stop したか理解し、少なくとも 1 件の failure analysis を見られれば、この章は合格です。
基本版は単一 Agent プロジェクトで十分です。memory、MCP、Multi-Agent 協調、デプロイは、trace と評価ループが固まってから追加します。
確認の考え方と解説
- 合格レベルの答えでは、agent loop を goal、plan、tool call、observation、memory/state update、stop condition として説明します。
- 証拠には、最終回答だけでなく、別の開発者が確認できる trace を残します。
- tool schema、permission boundary、retry、evaluation case、人間レビューなど、安全性または信頼性の制御を1つ説明できれば十分です。