XIDIAN
西安电子科技大学多媒体研究所
http://www.mti.xidian.edu.cn
基于内容的多媒体信息检索多媒体信息检索
需求:数字图像,视频,音频信息的大量增长,需要对这些多媒体信息进行浏览,查询和检索操作。
与传统关系数据库的区别
基于文本的图像检索
对图像进行文本标记。
利用传统的 DBMS系统进行图像检索。
缺点是需要人工标记,当数据量大时,无法胜任。
多媒体数据库
关系型数据库
表格形式,记录,属性,关键字,索引
多媒体数据库属性如何表达?
能否产生关键字?
能否建立索引?
两种方式
传统数据库支持多媒体数据类型
面向对象的数据库基于内容的多媒体信息检索
定义:以自动方式提取多媒体数据中的内容信息,并根据内容信息进行数据检索的技术。
检索的数据就是提取的内容。
涉及领域:
多媒体数据处理
数据库管理
模式识别
……
检索种类
基于内容的图像检索
IBM QBIC系统 1995
基于内容的视频检索
基于内容的音频检索
音乐检索
语音检索目标识别为用户提供一种工具,可以用全自动或者半自动(用户干预)的方式标识静态图像、视频镜头的代表帧等媒体中用户感兴趣的区域,以及视频序列中的动态目标,以便针对目标进行特征提取并查询。
基本步骤 1:目标识别基本步骤 2:特征提取特征提取
一般特征( general features)
颜色 (color)
纹理 (texture)
形状等 (shape)
特定领域特征
人脸 (human faces)
指纹 (finger prints)
手写体 (handwriting)
视频一般特征
镜头切换类型 (shot-cut)
摄像机运动( pan and zoom)
运动轨迹( lack of motion)
关键帧( key frame)
特征提取基本特征能否满足人们对图像的检索需求?
如何描述:一匹白马在草地上奔跑的图像?
能否自动生成图像的语义描述?
MPEG7中语义描述方法基于内容检索难点之一
低层特征与高层语义之间的差距
如何解决?
涉及到学习以及智能的概念!
索引的概念
加速查询过程
查询时间概念
I/O复杂度
CPU运算复杂度
多媒体数据的索引与数据结构中的查询的区别?
一维检索结构
各种查询方法
CPU查询速度
B树系列
综合考虑 CPU查询与 I/O复杂度。
多维检索结构
树型结构
R树,SS树,M树等
数据点划分
数据空间划分
基于哈息表的索引结构
映射方法

面临难以克服的困难- curse of dimensionality
近邻查询或范围查询数据对象高维向量空间高维检索基于内容检索步骤:高维检索高维检索方法
过滤方法
降维
聚类方法
向量近似方法( Vector Approximation File)
近似近邻搜索 ( Approximate Nearest
Neighbor Search)
附加:如何定义图像之间的相似性
图像可以抽象成为特征向量
有多种距离定义方法定义两个特征向量之间的距离
L1
L2
加权 L2
是否能够适合人的主观感觉?
QBE ( Query by example)
查询结果可以浏览
多种特征组合查询
面向 Web的多媒体查询基于内容检索步骤:搜索引擎
相关反馈是指用户将以前查询到的相关信息反馈给系统,系统自动用反馈信息来调整查询,使得调整后的查询更好的符合用户的需求信息。
提供一个智能化的查询接口,使得查询系统可以通过例子,学习和快速浏览来实现相关反馈,并能根据特定图像灵活的选择特征,
相似性度量和搜索方法。
相关反馈:解决上述问题的一种途径相关反馈采用的方法
修改度量距离,对加权特征进行修改
修改查询向量,逐步逼近用户意图
基于学习的方法
分类方法
SVM( support vector machine)
图像库 特征提取底层特征 语义多维检索相关反馈查询处理查询界面搜索引擎用户研究热点与发展趋势
基于语义的查询
相关反馈在查询中的应用
内容信息和文本标记的融合
多特征组合查询
高维检索
ACM International Workshop On Multimedia Databases
IEEE Workshop on Content-based Access of Image and Video Libraries
04