IT博客汇 | 计算机视觉入门总结：概念、发展历史、基本原理、典型任务和应用

计算机视觉入门总结：概念、发展历史、基本原理、典型任务和应用

诺儿笔记本发表于 2025-06-02 08:07:23

本文介绍计算机视觉的概念、发展历史、基本原理、典型任务和应用。从早期探索到深度学习革命，计算机视觉经历了多个阶段的发展。

近两年来 AI 产业已然成为新的焦点和风口，各互联网巨头都在布局人工智能，不少互联网产品经理也开始考虑转型 AI 产品经理，入门AI产品经理，或许你应该了解一些技术，本文将为你详细介绍计算机视觉

1 什么是计算机视觉

计算机视觉是让计算机通过摄像头和算法模拟人类视觉能力的科学。

简单来说，就是给机器装上“眼睛”和“大脑”，使其能看懂图片中的物体、场景、动作等信息。

它要解决的问题就是：让计算机看懂图像或者视频里的内容。

比如：图片里的宠物是猫还是狗？图片里的人是老张还是老王？视频里的人在做什么事情？

2 计算机视觉的发展历史

1. 早期探索（1950s–1960s）

理论奠基：计算机视觉的雏形可追溯至1950年代，受神经科学和心理学启发。

1959年，David Hubel和Torsten Wiesel通过猫的视觉皮层实验，揭示了视觉系统对边缘和方向敏感的特性，为后来的神经网络结构（如卷积神经网络）提供了生物学基础。

初步算法：1963年，Larry Roberts（“计算机视觉之父”）在《三维物体的机器感知》中提出通过边缘检测和几何模型从二维图像重建三维结构，奠定了早期图像分析框架。

2. 理论体系形成（1970s–1980s）

Marr的视觉计算理论：1970年代末，David Marr提出系统的视觉处理框架，认为视觉需经历“原始草图→2.5D草图→3D模型”三个阶段，强调从图像到三维结构的层次化计算。

技术突破如下：

（1）边缘检测：Canny边缘检测算法（1986年）成为经典。

（2）立体视觉：研究双目视觉的视差计算，用于深度估计。

（3）模式识别：基于模板匹配和统计方法进行物体分类。

3. 传统方法时代（1990s–2000s）

特征工程主导：

（1）SIFT（1999）：David Lowe提出尺度不变特征变换，实现鲁棒的特征匹配。

（2）HOG（2005）：方向梯度直方图用于行人检测。

（3）SVM与Boosting：支持向量机（SVM）、Adaboost等分类器结合手工特征，推动目标检测（如Viola-Jones人脸检测器）。

应用场景扩展：工业检测、医学影像分析（如MRI图像分割）、光学字符识别（OCR）等技术逐步实用化。

4. 深度学习革命（2012至今）

ImageNet与AlexNet（2012）：

Alex Krizhevsky等人的AlexNet在ImageNet图像分类竞赛中大幅超越传统方法（错误率从26%降至15%），标志着深度学习主导CV的开端。

关键技术进展：

（1）卷积神经网络（CNN）：LeNet-5（1998）→VGGNet（2014）→ResNet（2015）等网络不断加深，解决梯度消失问题。

（2）目标检测：Faster R-CNN（2015）、YOLO（2016）等实现实时检测。

（3）图像生成：生成对抗网络（GAN, 2014）和扩散模型（Diffusion Models, 2020s）推动高质量图像生成。

（4）硬件与数据驱动：GPU算力提升、大规模标注数据集（如COCO、Open Images）加速模型训练。

5. 当前趋势与挑战

多模态融合：视觉与语言结合（CLIP、DALL·E）、视频理解（Transformer模型）。

三维视觉：神经辐射场（NeRF）、点云处理（PointNet）、SLAM技术。

边缘计算与轻量化：MobileNet、EfficientNet等移动端模型部署。

伦理与隐私：人脸识别滥用、深度伪造（Deepfake）风险、数据偏见问题。

3 计算机视觉的基本原理

计算机视觉的基本原理是利用图像传感器获取目标对象的图像信号，然后将这些信号转换成数字信号，并进行多种运算与处理，提取出目标的特征信息进行分析和理解，最终实现对目标的识别、检测和控制。

1、图像获取

通过摄像头、传感器等设备捕获二维图像或视频，将物理世界的光信号转换为数字信号

● 设备类型：包括摄像头（RGB相机、红外相机）、扫描仪、激光雷达（LiDAR）等，不同设备适用于特定场景（如医疗CT扫描、自动驾驶多模态感知）

● 数据形式：生成二维图像、三维点云或视频序列，像素值可表征光强度、深度或材质特性（如X射线吸收度）

● 关键参数：分辨率、动态范围和采样率直接影响后续处理效果，例如高分辨率摄像头能捕捉更细腻的纹理

2、预处理

对获取到的图像进行处理，常见的预处理方式有降噪、增强对比度（如医疗X光片去噪）、调整亮度等，提升图像质量。

3、特征提取

● 传统方法：提取颜色（RGB/HSV）、边缘（Sobel算子）、纹理（HOG）等特征

● 深度学习方法：通过卷积神经网络（CNN），模仿人眼视觉，用多层”滤网”逐步提取边缘一形状→物体特征，自动学习高阶特征（如人脸轮廓、物体形状)；通过多模态融合，结合RGB图像与深度图（如Kinect传感器）提升特征鲁棒性

4、模式训练

● 分类与检测：利用分类器（如支持向量机）或深度学习模型（如YOLO）识别物体类别和位置；

● 三维重建：通过立体视觉或激光雷达数据生成场景三维模型（如自动驾驶中的环境感知)

5、输出结果

根据分析结果执行任务（如工业机器人抓取目标、自动驾驶车辆转向）

4 典型的计算机视觉任务

1、图像分类与识别

图像分类是判断图像所属类别的任务（如区分“猫”或“狗”），而图像识别则进一步识别图像中每个物体的具体类别（如识别图片中的“金毛犬”或“暹罗猫”）

2、物体检测和分析：

检测图像中物体的位置（边界框）和类别（如检测行人、车辆），并进一步分析物体属性（如颜色、形状）。如图a、b

目标分割任务更进一步，它不仅识别对象，还精确描绘出对象的轮廓，还能够创建一个精确的像素级别的区域，以此来表示每个检测到的对象的形状。如图c、d

3、人体分析

分析人体特征和行为，包括人脸识别、姿态估计、动作识别等。

4、三维计算机视觉

从二维图像或视频中重建三维场景或物体模型，理解空间关系。

5、视频理解与分析

分析视频中的时序信息，理解行为和事件（如动作识别、行为预测）

5 计算机视觉的应用

1、安全监控

自动检测和识别异常行为。

如公共区域摄像头自动检测火灾烟雾并联动消防系统

2、人脸识别：用于安防、支付及身份认证。

3、无人驾驶：车辆和行人的检测、车道线识别等。

4、医学图像分析：辅助医生进行疾病诊断。

5、工业检测：用于质量检测，如产品缺陷检测。

6、零售业：顾客行为追踪、库存管理。

7、制造业：预测性维护、缺陷检测。

8、农业：精准农业、病虫害检测。

9、保险业：理赔处理、风险评估。

10、安防：识别顾客、改进港口货物检验等

本文由人人都是产品经理作者【诺儿笔记本】，微信公众号：【诺儿笔记本】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。