コンテンツにスキップ

6.1.8 任意の背景:深層学習のブレークスルー

深層学習の歴史的ブレークスルーマップ

時間線は、次の一本の流れとして読みます。

  • 単純なニューロン
  • 線形モデルの限界
  • 学習できる多層ネットワーク
  • 安定した深層学習
  • 拡張できる画像モデル
  • Attention による系列モデリング

この流れを覚えておくと、第6章のアーキテクチャが孤立した名前に見えにくくなります。

変化当時の期待主なボトルネック次の段階を開いたもの
初期ニューラルネットワーク機械がデータから学べる単層モデルが弱い隠れ層と逆伝播
学習可能な深層ネットワーク多層モデルが表現を学べる勾配消失、データ不足、計算資源不足LSTM、初期化、事前学習の考え方
現代の深層学習データ、GPU、構造が一緒に拡張する非常に深いモデルと長期依存が難しいAlexNet、ResNet、Attention、Transformer

だから第6章では、アーキテクチャの前に基礎を学びます。

この歴史上の問題を見たら講座で見直す場所
1つのニューロンでは弱い6.1.3 ニューロンと活性化
多層ネットワークには勾配が必要6.1.4 順伝播と逆伝播
学習が不安定になりやすい6.1.5 最適化、6.1.6 正則化、6.1.7 初期化
画像には局所特徴が必要第6章後半の CNN セクション
系列には記憶や Attention が必要RNN、LSTM、Attention、Transformer セクション
時期ブレークスルー解決した問題講座での意味
1943-1958人工ニューロンとパーセプトロンサンプルからパラメータを学ぶ発想を可能にしたニューロンは重み付き和と判定
1969XOR の限界単層線形モデルでは足りないと示した隠れ層と非線形活性化が重要
1980ネオコグニトロン局所的な視覚特徴と階層構造を先取りしたCNN はまず局所パターンを見る
1986逆伝播多層ネットワークを学習可能にしたloss.backward() はこの考え方の現代形
1989一般近似非線形ネットワークが複雑な関数を表せると示した表現力には深さと活性化が必要
1994-1997勾配消失と LSTM長い系列の記憶をより実用的にしたゲートが時間をまたいで情報を残す
2006RBM / DBN 事前学習深い表現学習への関心を復活させた事前学習が重要な考え方になった
2012AlexNet / ImageNetデータ + GPU + CNN が画像で強いことを示した大規模学習がコンピュータビジョンを変えた
2015ResNet非常に深い CNN を学習しやすくした残差経路が勾配の流れを助ける
2017Attention / Transformer長距離系列モデリングを並列かつ拡張可能にした現代 LLM の土台

この小さな表で素早く思い出します。

名前まず考えること
パーセプトロン学習できる線形スコア
XOR線形境界には限界がある
逆伝播計算グラフに沿って誤差を配る
LSTM / GRUゲートで長い系列を覚える
AlexNetGPU 規模の CNN ブレークスルー
ResNet深いネットワークのショートカット
Attention各 token が関連 token を見られる
TransformerAttention ブロックを大規模に積む

年号を丸暗記する必要はありません。第6章の各アーキテクチャを学んだあと、次の三つだけを書いてください。

  1. 古いボトルネックを一文で書く。
  2. 新しい仕組みを一文で書く。
  3. 本章の実験を動かし、その仕組みを表すコード行を指す。

例:

古いボトルネック:深い CNN は最適化しにくい。
新しい仕組み:ResNet はショートカット経路を追加する。
コードの手がかり:output = block(x) + x

こうすると、歴史がただの用語ではなく、実装とつながります。

次に答えられれば先へ進めます。

  • XOR はなぜ単層モデルの限界を示したのか?
  • 逆伝播はなぜ多層ネットワークに重要だったのか?
  • LSTM はなぜ Transformer より前に現れたのか?
  • ResNet はなぜ非常に深い CNN を助けたのか?
  • Attention はなぜ現代の大規模言語モデルへの橋になったのか?

答えが「前のモデルでは……できなかったから」から始まるなら、歴史をよい読み方で読めています。

タイムラインを小さな記憶スケッチに変えます。4 コマで描いてください。

ボックス1
1 つのニューロンが線形ルールを学習する
ボックス2
XOR は隠れた非線形層が重要な理由を示す
ボックス3
バックプロパゲーションで多層学習が実用的になる
ボックス4
attention により token 同士が大規模に直接つながる

このページは任意ですが、このスケッチは役立ちます。第 6 章がなぜニューロンから Transformer へ進むのかを、ランダムなアーキテクチャ名の列ではなく、1 つの流れとして覚えられます。

ここでの期待出力は、年号の暗記ではなく、原因と結果の流れです。

perceptron -> XOR shows the limit
XOR -> hidden nonlinear layers matter
deep layers -> backprop and gradient flow matter
long sequences -> gates and attention matter
Transformer -> scalable context modeling for LLMs

アーキテクチャ名が孤立した事実に見えたら、この流れに戻して考えます。

レビュー観点と通過基準
  • 合格の目安は、各 architecture name を年号だけでなく、それが解決した bottleneck と結びつけられることです。
  • 少なくとも 3 つの節目について、old limitation -> new mechanism -> code clue を書きます。
  • 名前は知っているが mechanism を指せない例を 1 つ残します。それが次に戻って確認する概念です。
  • Chapter 6 の順番が、perceptron の限界から scalable attention までの cause-and-effect chain として見えれば、このページは完了です。