IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    计算机视觉入门总结:概念、发展历史、基本原理、典型任务和应用

    诺儿笔记本发表于 2025-06-02 08:07:23
    love 0

    本文介绍计算机视觉的概念、发展历史、基本原理、典型任务和应用。从早期探索到深度学习革命,计算机视觉经历了多个阶段的发展。

    近两年来 AI 产业已然成为新的焦点和风口,各互联网巨头都在布局人工智能,不少互联网产品经理也开始考虑转型 AI 产品经理,入门AI产品经理,或许你应该了解一些技术,本文将为你详细介绍计算机视觉

    1 什么是计算机视觉

    计算机视觉是让计算机通过摄像头和算法模拟人类视觉能力的科学。

    简单来说,就是给机器装上“眼睛”和“大脑”,使其能看懂图片中的物体、场景、动作等信息。

    它要解决的问题就是:让计算机看懂图像或者视频里的内容。

    比如:图片里的宠物是猫还是狗?图片里的人是老张还是老王?视频里的人在做什么事情?

    2 计算机视觉的发展历史

    1. 早期探索(1950s–1960s)

    理论奠基:计算机视觉的雏形可追溯至1950年代,受神经科学和心理学启发。

    1959年,David Hubel和Torsten Wiesel通过猫的视觉皮层实验,揭示了视觉系统对边缘和方向敏感的特性,为后来的神经网络结构(如卷积神经网络)提供了生物学基础。

    初步算法:1963年,Larry Roberts(“计算机视觉之父”)在《三维物体的机器感知》中提出通过边缘检测和几何模型从二维图像重建三维结构,奠定了早期图像分析框架。

    2. 理论体系形成(1970s–1980s)

    Marr的视觉计算理论:1970年代末,David Marr提出系统的视觉处理框架,认为视觉需经历“原始草图→2.5D草图→3D模型”三个阶段,强调从图像到三维结构的层次化计算。

    技术突破如下:

    (1)边缘检测:Canny边缘检测算法(1986年)成为经典。

    (2)立体视觉:研究双目视觉的视差计算,用于深度估计。

    (3)模式识别:基于模板匹配和统计方法进行物体分类。

    3. 传统方法时代(1990s–2000s)

    特征工程主导:

    (1)SIFT(1999):David Lowe提出尺度不变特征变换,实现鲁棒的特征匹配。

    (2)HOG(2005):方向梯度直方图用于行人检测。

    (3)SVM与Boosting:支持向量机(SVM)、Adaboost等分类器结合手工特征,推动目标检测(如Viola-Jones人脸检测器)。

    应用场景扩展:工业检测、医学影像分析(如MRI图像分割)、光学字符识别(OCR)等技术逐步实用化。

    4. 深度学习革命(2012至今)

    ImageNet与AlexNet(2012):

    Alex Krizhevsky等人的AlexNet在ImageNet图像分类竞赛中大幅超越传统方法(错误率从26%降至15%),标志着深度学习主导CV的开端。

    关键技术进展:

    (1)卷积神经网络(CNN):LeNet-5(1998)→VGGNet(2014)→ResNet(2015)等网络不断加深,解决梯度消失问题。

    (2)目标检测:Faster R-CNN(2015)、YOLO(2016)等实现实时检测。

    (3)图像生成:生成对抗网络(GAN, 2014)和扩散模型(Diffusion Models, 2020s)推动高质量图像生成。

    (4)硬件与数据驱动:GPU算力提升、大规模标注数据集(如COCO、Open Images)加速模型训练。

    5. 当前趋势与挑战

    多模态融合:视觉与语言结合(CLIP、DALL·E)、视频理解(Transformer模型)。

    三维视觉:神经辐射场(NeRF)、点云处理(PointNet)、SLAM技术。

    边缘计算与轻量化:MobileNet、EfficientNet等移动端模型部署。

    伦理与隐私:人脸识别滥用、深度伪造(Deepfake)风险、数据偏见问题。

    3 计算机视觉的基本原理

    计算机视觉的基本原理是利用图像传感器获取目标对象的图像信号,然后将这些信号转换成数字信号,并进行多种运算与处理,提取出目标的特征信息进行分析和理解,最终实现对目标的识别、检测和控制。

    1、  图像获取

    通过摄像头、传感器等设备捕获二维图像或视频,将物理世界的光信号转换为数字信号

    ●  设备类型:包括摄像头(RGB相机、红外相机)、扫描仪、激光雷达(LiDAR)等,不同设备适用于特定场景(如医疗CT扫描、自动驾驶多模态感知)

    ●  数据形式:生成二维图像、三维点云或视频序列,像素值可表征光强度、深度或材质特性(如X射线吸收度)

    ●  关键参数:分辨率、动态范围和采样率直接影响后续处理效果,例如高分辨率摄像头能捕捉更细腻的纹理

    2、预处理

    对获取到的图像进行处理,常见的预处理方式有降噪、增强对比度(如医疗X光片去噪)、调整亮度等,提升图像质量。

    3、特征提取

    ● 传统方法:提取颜色(RGB/HSV)、边缘(Sobel算子)、纹理(HOG)等特征

    ● 深度学习方法:通过卷积神经网络(CNN),模仿人眼视觉,用多层”滤网”逐步提取边缘一形状→物体特征,自动学习高阶特征(如人脸轮廓、物体形状);通过多模态融合,结合RGB图像与深度图(如Kinect传感器)提升特征鲁棒性

    4、模式训练

    ● 分类与检测:利用分类器(如支持向量机)或深度学习模型(如YOLO)识别物体类别和位置;

    ● 三维重建:通过立体视觉或激光雷达数据生成场景三维模型(如自动驾驶中的环境感知)

    5、输出结果

    根据分析结果执行任务(如工业机器人抓取目标、自动驾驶车辆转向)

    4 典型的计算机视觉任务

    1、  图像分类与识别

    图像分类是判断图像所属类别的任务(如区分“猫”或“狗”),而图像识别则进一步识别图像中每个物体的具体类别(如识别图片中的“金毛犬”或“暹罗猫”)

    2、  物体检测和分析:

    检测图像中物体的位置(边界框)和类别(如检测行人、车辆),并进一步分析物体属性(如颜色、形状)。如图a、b

    目标分割任务更进一步,它不仅识别对象,还精确描绘出对象的轮廓,还能够创建一个精确的像素级别的区域,以此来表示每个检测到的对象的形状。如图c、d

    3、  人体分析

    分析人体特征和行为,包括人脸识别、姿态估计、动作识别等。

    4、  三维计算机视觉

    从二维图像或视频中重建三维场景或物体模型,理解空间关系。

    5、视频理解与分析

    分析视频中的时序信息,理解行为和事件(如动作识别、行为预测)

    5 计算机视觉的应用

    1、安全监控

    自动检测和识别异常行为。

    如公共区域摄像头自动检测火灾烟雾并联动消防系统

    2、人脸识别:用于安防、支付及身份认证。

    3、无人驾驶:车辆和行人的检测、车道线识别等。

    4、医学图像分析:辅助医生进行疾病诊断。

    5、工业检测:用于质量检测,如产品缺陷检测。

    6、零售业:顾客行为追踪、库存管理。

    7、制造业:预测性维护、缺陷检测。

    8、农业:精准农业、病虫害检测。

    9、保险业:理赔处理、风险评估。

    10、安防:识别顾客、改进港口货物检验等

    本文由人人都是产品经理作者【诺儿笔记本】,微信公众号:【诺儿笔记本】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

    题图来自Unsplash,基于 CC0 协议。



沪ICP备19023445号-2号
友情链接