7.4.1 事前学習ロードマップ：データ、目的、エンジニアリング

事前学習は、モデルが広い言語パターンを最初に学ぶ工程です。エンジニアリング視点では、データを整え、目的を決め、大規模に学習し、リスクを追跡します。

まず事前学習の三角形を見る

事前学習章関係図

事前学習データ、目的、エンジニアリング三角図

tokens = ["AI", "learns", "from", "text"]
pairs = list(zip(tokens[:-1], tokens[1:]))

for source, target in pairs:
    print(f"{source} -> {target}")

期待される出力：

AI -> learns
learns -> from
from -> text

next-token ペア作成の実行結果図

この小さな例が next-token prediction の形です。本物の事前学習では、これを巨大なテキストと厳密なデータガバナンスに広げます。

順番	読む	まず見ること
1	7.4.2 事前学習データ	ソース、フィルタリング、重複除去、汚染
2	7.4.3 事前学習手法	next-token prediction、loss、scaling
3	7.4.4 事前学習エンジニアリング	分散学習、checkpoint、監視
4	7.4.5 GPU を借りて手作り GPT-2 を学習する	プラットフォーム選択、環境構築、`device: cuda` で mini GPT-2 を逐次確認

このページを終えたら、この証拠カードを残します。

データ、目的、エンジニアリングが最終モデルへどう影響するか、contamination が評価を誤解させる理由、そして mini GPT-2 実験で CPU が smoke test、device: cuda が正式な学習証拠になる理由を説明できれば合格です。

確認の考え方と解説

合格レベルの答えでは、token、context、attention、prompt、生成挙動が1回の request-response path でどうつながるかを説明します。
証拠には、再現できる prompt または structured-output test を1つ残し、出力が通った理由または失敗した理由を書きます。
prompt 設計、RAG、fine-tuning、alignment を切り分け、観察した問題を直す最も軽い方法を選べれば十分です。