计 算 机 视 觉
For Graduate Students and Ph. D. Candidates in Computer Science
第一章 绪论
§ 1.1 计算机视觉 (Computer Vision)及其与相关学科的关系
一. 计算机视觉
研究完成一项任务所需视觉信息和如何从图象中获取这些信息的研究领域
图象 视觉系统 视觉信息(距离, 朝向, 质地等)
图 1.1视觉系统功能
计算机视觉要达到的基本目的至少有三个:
1. 根据一幅或多幅二维投影图象计算出观察点到目标物体的距离 ;
2. 根据一幅或多幅二维投影图象计算出目标物体的运动参数;
3. 根据一幅或多幅二维投影图象计算出目标物体的表面物理特性;
要达到的最终目的是实现对于三维景物世界的理解 ,即实现人的视觉系统的
某些功能。
计算机视觉研究的本质问题 ——利用二维投影图象来重构三维物体的可视
部分。
二 . 计算机视觉 (CV)与人工智能 (AI)、 图象处理 (IP)以及模式识别 (PR)等的关系
图象 图象处理系统 处理过的图象
模式 模式识别系统 分类结果
图 1.2 图象处理系统功能
图 1.3 模式识别系统功能
Artificial
Intelligence
Compter
Vision
Pattern
Recognition
Image
Processing
图 1.4 AI、 CV、 IP与 PR的关系
§ 1.2 计算机视觉的发展
一 . 发展概况
方法上 :
Roberts(1965)——三维积木世界理解
70年代, Marr为代表 ——计算理论
Barrow、 Tenenbaum本征图 (Intrinsic Image)
80年代, Aloimonous提出主动视觉 (Active Vision)、 有目的视觉 (Purpose Vision)、
定性视觉 (Qualitative Vision)
系统上 :
简化世界解释: VISION(麻省大学 )、 ACRONYM(Standford Univ.)
Mobile Robert: 道路分析与避障 Navlab、 Polly
二 . 困难与问题
1. 对生理学、神经生物学等的研究有待深入,对侧抑制现象的揭示是这方面的典
型例证;
关于这一点并非绝对,汽车之与动物行走方式的不同、飞机之与鸟类飞行方式的不同是很好
的反例 ;
2. 视觉问题多半是逆问题
3. 视觉知识的表达与使用
人类获取信息的 80%来源于视觉 ——涉及面广
存储与检索
4. 巨大的计算量
§ 1.3 计算机视觉的研究方法与内容
交叉学科 ——涉及几何 (射影几何、空间解析几何 )、线性代数、概率、随机过程、优化方
法、信息论、生理学、心理学、光学、热力学等
主要方法
从简化世界出发 (早期的主要手段 )
恢复精确三维形状
主动方法
研究内容
1. 立体视觉
2. 运动视觉
3. Shape from X
4. 高层表示与推理
5. 视觉学习
6. 主动视觉
视觉是个信息处理任务
视觉就是人通过观察认知有什么东西和它们在什么地方。换句话说,视
觉是一种处理过程,经过这个过程从图象中发现外部世界中有什么东西和
它们在什么地方。
一、视觉系统研究的三个层次 :
计算理论层次
信息处理的计算理论,研究的是对什么信息进行计算和为什么要进
行这些计算。
表达( representation) 与算法层次
研究的是如何进行所要求的计算,也就是要设计特定的算法
representation--指一种能把某种实体或某几类信息表达清楚的形式
化系统
硬件实现层次
研究完成某一特定算法的计算机构
1.4 Marr关于视觉的计算理论
图象
聚集初始简图
2.5维简图
三维模型
轮 立 运 纹 遮
廓 体 动 理 挡
图 1.5 视觉系统的三个表示层次
二、视觉信息处理的三个阶段
按视觉信息的表示,可将视觉信息处理分为三个
阶段
1、 初始简图( primal sketch)
检测亮度的变化,表示并分析局部的几何结构,
以及检测光源、强光部和透明度等照明效应等,这一
步得到的表示称为初始简图。
未处理的初始简图:边缘 、 线、点等 ,基元图
完全的初始简图 :对原始的基元进行选择、聚
合和概括等过程来构成更大、更为抽象的标记
2、 2.5维简图
建立包括表面朝向,观察者的距离,以及朝向和
距离的不连续性,表面的反射情况,以及对主要照明
情况的某种粗略的描述。
初始简图和 2.5维简图都是在以观察者为中心的坐
标系中构成的
3、 三维模型
被观察形状的三维结构组织在以物体为中心的坐
标系中表示,以及在这种坐标系下对物体表面性质的
一些描述