コンテンツにスキップ

7.8.1 プロジェクトロードマップ:Prompt、RAG、微調整を選ぶ

このキャップストーンは、第 7 章を 1 つのエンジニアリング判断にまとめます。問題はタスク表現、知識不足、形式の不安定さ、安全境界、評価不足のどれでしょうか。

まずプロジェクトルートを見る

Section titled “まずプロジェクトルートを見る”

大規模モデル総合プロジェクトのロードマップ

大規模モデルプロジェクトの手法選択ループ図

ポートフォリオ証拠パック図

最強モデルや複雑なフレームワークから始めないでください。小さなドメインタスク、Prompt ベースライン、固定例、失敗ログから始めます。

レポートを書く前に、この小さなプロジェクトログを使います。ベースライン、改善幅、次のルート、今すぐ微調整が必要かを示すためです。

project = {
"task": "classify course questions",
"baseline_pass_rate": 0.62,
"prompt_v2_pass_rate": 0.78,
"rag_needed": True,
"finetune_needed": False,
}
improvement = project["prompt_v2_pass_rate"] - project["baseline_pass_rate"]
print("task:", project["task"])
print("improvement:", round(improvement, 2))
print("next_route:", "RAG" if project["rag_needed"] else "Prompt")
print("fine_tune_now:", project["finetune_needed"])

期待される出力:

Terminal window
task: classify course questions
improvement: 0.16
next_route: RAG
fine_tune_now: False

この項目を埋められないなら、プロジェクトをさらに小さくします。大きいが検証できないデモより、明確な比較のほうが価値があります。

手順作業証拠
1ドメインタスクを 1 つ選ぶ1 文のタスク定義と 10 件の固定例
2Prompt ベースラインを作るPrompt バージョン、出力、合否メモ
3失敗タイプを分類するタスク表現、知識不足、形式のずれ、安全境界
4次の手法を選ぶPrompt 反復、RAG、微調整の判断メモ
5結果をまとめるREADME、実行コマンド、スクリーンショット、失敗例、次の一手

先にガイド付きで動かしたい場合は、自分のドメインプロジェクトを設計する前に 7.8.4 実践:第 7 章フルワークショップ を実行してください。

判断ルール:手法を選ぶ前に失敗を名づける

Section titled “判断ルール:手法を選ぶ前に失敗を名づける”

卒業プロジェクトでは、「RAG」や「fine-tuning」が高度に見えるから使う、という形にしません。まず主要な失敗を言語化します。

主な失敗最初に試すルート必要な証拠
モデルが答えの出典を知らないRAG検索文書が回答を支えている
出力形式が崩れる構造化出力 + 検証parser の通過率が改善する
指示が曖昧Prompt の反復改善同じケースが 1 回の prompt 変更で改善する
多くのケースで同じ振る舞いの誤りが繰り返されるfine-tuning / LoRA 候補十分なラベル付き例と hold-out 評価ケース
タスクが外部アクションを必要とするツール / Agent ルートツール呼び出しの追跡記録と回復動作

この表はプロジェクトを手法の見本市ではなく、エンジニアリング判断に変えます。

成果物最低基準強いポートフォリオ版
README目的、実行コマンド、モデルまたは API 選択、入出力例手法のトレードオフ、コストメモ、評価、振り返りを追加
10 件以上の固定ケースPrompt、RAG、微調整、ルールベース版を比較
評価明確な合否ルールスコア、失敗タイプ統計、回帰メモを追加
Prompt/データ記録Prompt バージョンまたはサンプル形式を保存スキーマ 検証、データ品質チェック、安全メモを追加
発表素材動作を証明するスクリーンショットまたは短い GIFなぜ現在のルートが代替案より良いか説明

このページを終えたら、この証拠カードを残します。

プロジェクト選択
Prompt、RAG、fine-tuning、またはハイブリッド経路
ベースライン
まずは最も簡単に動く方法
評価
固定ケースと採点ルール
成果物
README、prompts、outputs、failures、decision log
橋渡し
第8章ではこれを検索バック付きアプリケーションに変える

固定した評価セットを使って、「ここで微調整しない理由」「ここで RAG が必要な理由」「この Prompt 変更が効いた理由」を説明できれば、この章は合格です。

最終プロジェクトは基本版で十分です。1 つのドメインタスクで 2 つの Prompt バージョンを比較します。強い版では RAG や小さな微調整実験を追加できますが、必ずベースラインと失敗ログで必要性を示してから行います。

確認の考え方と解説
  1. 合格レベルの答えでは、token、context、attention、prompt、生成挙動が1回の request-response path でどうつながるかを説明します。
  2. 証拠には、再現できる prompt または structured-output test を1つ残し、出力が通った理由または失敗した理由を書きます。
  3. prompt 設計、RAG、fine-tuning、alignment を切り分け、観察した問題を直す最も軽い方法を選べれば十分です。