メインコンテンツへスキップ

12.0 学習チェックリスト:AIGC とマルチモーダル

このページは印刷用チェックリストとして使います。詳しい説明が必要なときは、第 12 章入口ページ に戻ってください。

マルチモーダルポートフォリオ証拠パック

2時間の初回通読

時間やることここまで言えたら止める
20 分入口ページのワークフローループを見る「マルチモーダル作業は出典を保った入力から始まる。」
25 分視覚記録スクリプトを動かす「視覚内容を確認可能な構造化記録にできる。」
25 分マルチモーダル基礎と画像生成をざっと読む「理解と生成には Prompt、model、output、review が必要。」
25 分倫理とコンプライアンスをざっと読む「外部利用には copyright、portrait、sensitive、factual checks が必要。」
25 分RAG/Agent ブリッジを読む「マルチモーダルは RAG、Agent、卒業プロジェクトを拡張する。」

必ず残す証拠

証拠最小版
multimodal_pipeline.mdinput、parsing、generation/understanding、review、export
visual_records.jsonlsource、page/region/time reference、visible text、objects、uncertainty
prompts/Prompt 版、reference assets、negative requirements、selection notes
outputs/candidate outputs、selected output、rejected output、reason
safety_review.mdcopyright、portrait rights、sensitive content、factuality、usage boundary
README.mdgoal、run command、source materials、sample output、limitations

品質ゲート

ゲート合格条件
Source traceすべての input/output が source、owner/license、version、必要なら page/region/time reference を保持している。
Prompt/versioncandidate outputs が Prompt、model/tool、reference assets、selection reason に結びついている。
Reviewcopyright、portrait/voice、sensitive content、factuality、accessibility、export scope が確認されている。
ExportREADME、manifest、selected outputs、rejected outputs、limits、next fix を他者が確認できる。

章を出る前の質問

  • screenshot、PDF、image、audio、video の出典参照を保持できますか?
  • 非テキスト入力を RAG や Agent が使える構造化記録にできますか?
  • Prompt 版とレビュー記録で生成出力を比較できますか?
  • 外部公開前に何を確認すべきか説明できますか?
  • 結果を最終ポートフォリオまたは卒業 Demo としてまとめられますか?

答えがすべて「はい」なら、このコースは基礎、データ、モデル、LLM アプリ、Agent、マルチモーダル製品ワークフローまでの端から端までの道になります。