10.1.1 视觉基础路线图:像素、通道、处理
计算机视觉从输入直觉开始。在分类、检测或分割之前,你需要知道图像在计算机里是什么数字形态。
先看图像流水线
Section titled “先看图像流水线”
![]()

第一个心智模型很简单:图像 = 高度 × 宽度 × 通道。后面的很多 bug 都来自 shape、通道顺序、坐标或颜色空间混淆。
跑一个极小图像形状检查
Section titled “跑一个极小图像形状检查”这个玩具图像有 2 行、3 列和 RGB 值。
image = [ [[255, 0, 0], [0, 255, 0], [0, 0, 255]], [[255, 255, 255], [0, 0, 0], [128, 128, 128]],]
height = len(image)width = len(image[0])channels = len(image[0][0])top_left_pixel = image[0][0]
print("shape:", (height, width, channels))print("top_left_pixel:", top_left_pixel)预期输出:
shape: (2, 3, 3)top_left_pixel: [255, 0, 0]如果真实图片读取后的形状或通道顺序错了,后面每个模型结果都会更难信任。
按这个顺序学
Section titled “按这个顺序学”| 步骤 | 阅读 | 实操产出 |
|---|---|---|
| 1 | 图像表示 | 解释像素、通道、高度、宽度、RGB/BGR |
| 2 | OpenCV 基础 | 加载、查看、裁剪、缩放、保存图片 |
| 3 | 基础处理 | 尝试灰度、阈值、模糊、边缘和简单滤波 |
如果你能检查图像 shape,按坐标裁剪区域,解释通道顺序,并为 README 保存一张处理结果,就通过了本章。
检查思路与讲解
- 合格答案要把任务映射到正确的视觉输出:类别标签、检测框、mask、OCR 文本、embedding 或视频事件。
- 证据应包含渲染后的视觉产物,以及一个指标或定性错误说明。
- 自检时要能指出一个视觉失败模式,例如类别混淆、漏检、mask 边界差、光照变化、领域偏移或标注质量弱。
学完这一页,至少保留这张证据卡:
- 输入图像
- 本次运行中使用的源图像或合成图像
- 数组形状
- 宽、高、通道、dtype,以及坐标约定
- 处理后输出
- 灰度、裁剪、边缘、阈值或已保存的中间图像
- 失败检查
- 通道顺序、缩放失真、坐标错误或过度处理
- 期望产出
- 前后对比图片,以及打印出的形状或像素值