跳转到内容

13.0 学习检查表：开源大模型部署

这页当成可打印检查表使用。需要完整讲解时，回到第 13 章入口页。

第13章学习检查表

如果你还没有亲手运行，请先完成 13.1 计算路线：本地 CPU、免费 Colab、租 GPU，再完成 13.2 实操：跑通、训练并服务化一个开源大模型。然后用 13.3 模型与运行时决策、13.4 服务化、评估与发布 Runbook 和 13.5 开放权重模型路线补齐部署证据。

两小时快速通读

20 分钟：选择计算路线 能说出“这次运行应该在本地 CPU、免费 Colab 或租 GPU 上做，并且我知道这条路线不能证明什么”就停。
20 分钟：运行环境检查 能说出“我知道这台机器能不能用 CUDA，还是只能用 CPU”就停。
25 分钟：运行 runbook 脚本 能说出“我能根据硬件和项目约束选择运行时”就停。
25 分钟：跑 mini GPT-2 训练证据 能说出“我已经完成本地冒烟测试，并知道 CUDA 训练日志必须包含什么”就停。
25 分钟：建一个五条 Prompt 评估表 能说出“我能在改运行时或微调前比较模型行为”就停。
30 分钟：写适配决策 能说出“我能解释为什么选 Prompt、RAG、量化、LoRA 或不微调”就停。
30 分钟：写发布 runbook 能说出“另一个工程师可以启动、测试、停止和回滚这个服务”就停。

必须留下的证据

environment_report.txt：Python、torch、CUDA/device、platform、磁盘或实例说明。
compute_route.md：本地 CPU、免费 Colab 或租 GPU 选择，以及 fallback 和 stop rule。
model_decision.md：模型、尺寸、许可证、来源、理由、被拒方案。
open_weight_route.json：计算路线、候选模型族、runtime 适配、适配策略和必须证据。
model_runtime_decision.json：按本地 CPU、免费 Colab、租 GPU 路线输出的运行时建议。
open_llm_runbook.json：运行时选择、适配选择、需要保留的证据。
api_smoke_test.json：本地 OpenAI-compatible API 的健康检查和一次请求/响应证据。
first_run.md：精确命令、Prompt、输出、延迟或显存备注。
eval_cases.csv：至少五个 Prompt、期望行为、pass/fail、备注。
openllm_gpu_training_run/：environment_report.json、training_log.csv、mini_gpt2_checkpoint.pt、sample.txt，并说明这是 CPU/MPS 冒烟测试还是 CUDA 验收运行。
gpu_train_log.txt：终端 trace，包含 device、至少三行 loss、checkpoint 路径和 sample 输出。
README.md：设置、运行、评估、停止服务、回滚或关机。

质量闸门

可复现：另一个工程师能识别模型版本、运行时、命令和环境。
安全：对外共享前检查许可证、隐私、鉴权、日志和关机。
评估：运行时或微调变化都用同一组评估样本比较。
训练证据：CPU/MPS 要标记为冒烟测试；声称完成 GPU 训练前必须有 CUDA 运行。
成本控制：记录免费 Notebook 限制或 GPU 租用时长、显存、延迟和停止流程。
适配决策：微调来自重复证据，而不是一次不满意回答。

离章问题

你能解释为什么选择这个模型尺寸和许可证吗？
你能解释为什么这个开放权重模型族适合当前计算路线和 runtime 吗？
你能解释为什么这次运行适合本地 CPU、免费 Colab 或租 GPU 吗？
你能说明为什么这个运行时足够当前项目使用吗？
你能运行或复现环境检查吗？
你能解释 mini GPT-2 训练日志证明了什么、没有证明什么吗？
改动后，你能用同一组五个 Prompt 比较输出吗？
你能为 Prompt、RAG、量化、LoRA 或全参微调的选择辩护吗？

如果答案都是可以，你就能把开源大模型当成工程选项，而不是随机模型 demo 集合。

留下的证据

学完这一页，至少保留这张证据卡：

环境报告: Python、torch、CUDA/device、platform、硬件/成本备注
计算路线: local CPU / free Colab / rented GPU、fallback、stop rule
模型决策: 选中模型、许可证、尺寸、来源、被拒方案
运行契约: 命令或 endpoint、请求格式、响应格式、错误路径
训练证据: mini GPT-2 的设备、loss 日志、checkpoint、sample 和关机证明
评估记录: 固定 Prompt、输出、pass/fail、延迟或显存备注
适配选择: Prompt/RAG/量化/LoRA/全参微调的选择和理由