图象视频数据理解与检索 卢 汉 清

Post on 12-Jan-2016

137 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

图象视频数据理解与检索 卢 汉 清. 主要困难. 数据量大. 无序,非结构化. 语义信息隐含,内容丰富. Shot. Shot. Shot. Scene. Scene. Scene. VIDEO. Content-based video indexing. 内容. 镜头分割 镜头表示 运动目标的半自动分割 背景图象的拼接 运动分析 视频浏览与检索. 视频镜头检测. 镜头是摄像机在一次连续操作期间拍摄所得的视频帧序列; 一个镜头内所有图象描述的应当是比较一致的内容,可以把镜头作为基本索引单元. 镜头切换类型. 两类镜头切换:. - PowerPoint PPT Presentation

TRANSCRIPT

National Laboratory of Pattern Recognition

Institute of Automation, CAS

Lu Hanqing (luhq@nlpr.ia.ac.cn)

Updated on 2005-04-23Updated on 2005-04-23

图象视频数据理解与检索图象视频数据理解与检索

卢 汉 清卢 汉 清

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page22

主要困难主要困难

• 数据量大数据量大

• 无序,非结构化无序,非结构化

•语义信息隐含,内容丰富语义信息隐含,内容丰富

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page33

Shot Shot Shot

VIDEO

Scene Scene Scene

Content-based videoContent-based video indexingindexing

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page44

内容内容

• 镜头分割镜头分割• 镜头表示镜头表示

– 运动目标的半自动分割运动目标的半自动分割– 背景图象的拼接背景图象的拼接

• 运动分析运动分析• 视频浏览与检索视频浏览与检索

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page55

视频镜头检测视频镜头检测

• 镜头是摄像机在一次连续操作期间拍摄所得的视镜头是摄像机在一次连续操作期间拍摄所得的视频帧序列频帧序列 ;;

• 一个镜头内所有图象描述的应当是比较一致的内一个镜头内所有图象描述的应当是比较一致的内容,可以把镜头作为基本索引单元容,可以把镜头作为基本索引单元

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page66

两类镜头切换两类镜头切换 ::

1. 1. 突变:两镜头直接衔接突变:两镜头直接衔接

2. 2. 渐变:两镜头间通过特技渐变:两镜头间通过特技操作平滑过渡,包括渐隐,操作平滑过渡,包括渐隐,淡入,淡出,扫换等淡入,淡出,扫换等

镜头切换类型镜头切换类型

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page77

镜头切换例子镜头切换例子

突变突变

渐变渐变

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page88

渐变镜头的一些实例渐变镜头的一些实例

DissolveDissolve WipeWipe

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page99

镜头检测的基本原理镜头检测的基本原理 基本假定基本假定 : : 一个镜头内的相邻帧间有较强的连续一个镜头内的相邻帧间有较强的连续

性和相似性,内容不会有大的变化性和相似性,内容不会有大的变化 选择合适的帧间差别测度和合适的阈值,当相邻选择合适的帧间差别测度和合适的阈值,当相邻

帧图象间的差别大于阈值时,就认为出现了镜头帧图象间的差别大于阈值时,就认为出现了镜头切换切换

对帧间差别测度的要求:对帧间差别测度的要求: 对镜头切换敏感对镜头切换敏感 对镜头内图象的变化不敏感对镜头内图象的变化不敏感

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1010

镜头检测的主要方法镜头检测的主要方法• 基于像素差的方法;基于像素差的方法;• 基于统计量的方法;基于统计量的方法;• 基于图象特征的方法;基于图象特征的方法;• 基于灰度或彩色直方图的方法;基于灰度或彩色直方图的方法;• 区域块法;区域块法;• 时空流法;时空流法;• 压缩域中的方法;压缩域中的方法;• …………

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1111

镜头内图象变化的原因:运动,光照,小噪声镜头内图象变化的原因:运动,光照,小噪声

颜色直方图对目标运动和小噪声不敏感,因此得到颜色直方图对目标运动和小噪声不敏感,因此得到广泛应用广泛应用

常用测度:颜色直方图常用测度:颜色直方图

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1212

颜色直方图的缺点颜色直方图的缺点• 颜色直方图对光照变化非常敏感,简单的光强变颜色直方图对光照变化非常敏感,简单的光强变

化就会引起直方图的突变化就会引起直方图的突变

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1313

光照变化的例子光照变化的例子

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1414

一种光照不变测度:颜色比值直方图一种光照不变测度:颜色比值直方图

• 相邻象素颜色的比值在光照变化时是不变的相邻象素颜色的比值在光照变化时是不变的

• 颜色比值直方图的差可以作为帧间差别测度颜色比值直方图的差可以作为帧间差别测度

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1515

普通颜色直方图普通颜色直方图

颜色比值直方图颜色比值直方图

比较

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1616

渐变检测渐变检测

渐变检测更困难,因为是平滑过渡,发生切换时渐变检测更困难,因为是平滑过渡,发生切换时相邻帧间仍保持了连续性相邻帧间仍保持了连续性

双阈值技术:低阈值检测可能的起始帧,后续双阈值技术:低阈值检测可能的起始帧,后续帧与此起始帧比较,高阈值检测渐变结束帧帧与此起始帧比较,高阈值检测渐变结束帧

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1717

镜头切换是视频的一个局部过程,不应采用单一的全镜头切换是视频的一个局部过程,不应采用单一的全局阈值局阈值 动态自适应的阈值选择动态自适应的阈值选择 1. 1. 对当前帧,选择之前的一个时间窗口对当前帧,选择之前的一个时间窗口 2. 2. 计算这个窗口中帧间差值的均值 和方差计算这个窗口中帧间差值的均值 和方差 3. 3. 设定双阈值中,低阈值为 设定双阈值中,低阈值为 , , 高阈值为高阈值为

a

)3~2(a

)6~5(a

动态阈值技术

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1818

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page1919

视频镜头的表示视频镜头的表示• 关键帧关键帧 ((Key frame)Key frame) 表示;表示;

– As Y.T.Zhang, etc. in Proc. ICIP 1998As Y.T.Zhang, etc. in Proc. ICIP 1998– As P.O.Gresles, T.S.Huang, in ICVIS 1997As P.O.Gresles, T.S.Huang, in ICVIS 1997

• 基于图象拼接基于图象拼接 ((Mosaic)Mosaic) 的表示的表示• M.Irani, P.Anandan and S.Hsu. In ICCV 95M.Irani, P.Anandan and S.Hsu. In ICCV 95

• HighlightHighlight 表示表示• M.A.Smith, T.Kanade, in CVPR 97M.A.Smith, T.Kanade, in CVPR 97

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2020

图象拼接方法的优点图象拼接方法的优点

•拼接图加上运动目标包含了镜头的全部内容拼接图加上运动目标包含了镜头的全部内容

•极大减少了数据量极大减少了数据量

•前景与背景分离,容易实现面向对象的操作前景与背景分离,容易实现面向对象的操作

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2121

拼接图的例子拼接图的例子

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2222

拼接图的例子(继续)拼接图的例子(继续)

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2323

建立拼接图的方法建立拼接图的方法

•选定一个参考帧选定一个参考帧

•计算其它所有图象与参考帧之间的坐标变换计算其它所有图象与参考帧之间的坐标变换

•将其它图象变换到参考帧坐标系上,得到拼接图将其它图象变换到参考帧坐标系上,得到拼接图

关键:计算坐标变换,即摄像机运动估计关键:计算坐标变换,即摄像机运动估计

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2424

摄像机运动模型摄像机运动模型

• 简单平移模型简单平移模型 (( 两参数两参数 ))

• 平面模型平面模型 (( 四参数四参数 ))

• 仿射模型仿射模型 (( 六参数六参数 ))

• 简化透视投影模型简化透视投影模型 (( 八参数八参数 ))

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2525

考虑如下两种情况:考虑如下两种情况:1. 1. 摄像机纯旋转摄像机纯旋转

2. 2. 平面场景平面场景

图象间的变换可由图象间的变换可由 8 8 参数平面射影模型精确描述参数平面射影模型精确描述

1**

**'

yhxg

cybxax

1**

**'

yhxg

fyexdy

简化透视投影模型简化透视投影模型 (( 八参数八参数 ))

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2626

模型参数估计模型参数估计

• 基于特征对应的方法基于特征对应的方法

• 无特征对应的直接法无特征对应的直接法

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2727

结果演示结果演示 11

MosaicMosaicRepresentationRepresentation

Key FrameKey FrameRepresentationRepresentation

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2828

结果演示结果演示 22

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page2929

方法一对于稳定的图像序列,相邻的图像帧之间重叠部分较多,可采用基于 Manifold Projection的快速的图像拼接技术

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3030

方法二对于重叠区域较小的图像,可采用基于特征匹配和遗传算法( Genetic Algorithms)的鲁棒的图像拼接技术

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3131

方法三 基于边缘的拼接方法三 基于边缘的拼接

Watershed basedsegmentation

Higher contrastedges detection

2D motion estimation

First image second image

Planar motion

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3232

算法算法

•基于水线的分割基于水线的分割

•高对比度边缘检测高对比度边缘检测

•鲁棒的平面运动估计鲁棒的平面运动估计

•MosaicMosaic 图像生成图像生成

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3333

高对比度边缘检测高对比度边缘检测

• 高对比度边缘(高对比度边缘( Higher contrast edgesHigher contrast edges ))是是指具有更多连接边缘的点集指具有更多连接边缘的点集

• 膨胀高对比度边缘到给定的宽度膨胀高对比度边缘到给定的宽度

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3434

MosaicRepresentation

Key FrameRepresentation

该方法的结果之一该方法的结果之一

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3535

方法四 时空法

实验一:

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3636

方法四 时空法

实验一:从切片获得的特征曲线

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3737

用图象金字塔获取初值,最终的结果

用切片获取初值,最终的结果

方法四 时空法

实验一:结果比较

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3838

第 20帧 第 80 帧 第 100 帧 第 140 帧

方法四 时空法

实验二:存在运动物体的视频段

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page3939

方法四 时空法

实验二:用我们的方法所得到的结果

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4040

运动分析运动分析

• 运动物体分割运动物体分割

• 运动物体的识别与跟踪运动物体的识别与跟踪

• 行为动作理解行为动作理解

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4141

运动目标分割运动目标分割• 时域差分法时域差分法

– 优点:方法简单快速优点:方法简单快速– 缺点:摄像机运动时需要在分割前完成运动补缺点:摄像机运动时需要在分割前完成运动补

偿偿• 运动估计与分割运动估计与分割

– 外在方法外在方法– 隐式方法隐式方法

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4242

光流场估计光流场估计

• 基于点亮度不变性基于点亮度不变性

• 基于特征不变基于特征不变

• 基于区域相似性基于区域相似性

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4343

运动目标的识别与跟踪运动目标的识别与跟踪• 识别识别

– 目标获取、定位、识别……目标获取、定位、识别……

• 跟踪跟踪– 运动参数估计、预测,运动路径描述……运动参数估计、预测,运动路径描述……

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4444

行为动作理解行为动作理解

• 哑语哑语• 虚拟鼠标、虚拟环境……虚拟鼠标、虚拟环境……• 行为动作的意义描述行为动作的意义描述• …………

National Laboratory of Pattern Recognition

Institute of Automation, CAS

Lu Hanqing (luhq@nlpr.ia.ac.cn)

Updated on 2005-04-23Updated on 2005-04-23

基于基于多尺度数学形态学多尺度数学形态学的的视频目标分割视频目标分割卢汉清 李毅 廖明卢汉清 李毅 廖明

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4646

应用背景和目标应用背景和目标• 面向基于内容的视频数据编码与索引:面向基于内容的视频数据编码与索引:

MPEG-4MPEG-4 和和 MPEG-7MPEG-7 。。• 视频目标提取:根据一定的准则,把视频图视频目标提取:根据一定的准则,把视频图

象分割成不同的区域并标识出有语义意义的象分割成不同的区域并标识出有语义意义的目标。目标。

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4747

主要难点主要难点

11 、、对区域的语义描述。对区域的语义描述。22 、摄像机(全局)运动补偿。、摄像机(全局)运动补偿。33 、、多运动估计和分割。多运动估计和分割。

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4848

我们的策略我们的策略• 11、区域的语义描述、区域的语义描述• 初始帧的初始帧的交互式标定加后续帧的自动目标跟踪。交互式标定加后续帧的自动目标跟踪。• 22、、摄像机(全局)运动补偿摄像机(全局)运动补偿• 与视频目标提取相结合,利用与视频目标提取相结合,利用语义信息。语义信息。• 基于多尺度梯度水线的特征匹配方法。基于多尺度梯度水线的特征匹配方法。• 33 、、多运动估计和分割。多运动估计和分割。• 采用了自上而下的空域分裂策略,根据不同的运动复杂度采用了自上而下的空域分裂策略,根据不同的运动复杂度使用不同尺度的空域分割,组成一个区域金字塔,从而提使用不同尺度的空域分割,组成一个区域金字塔,从而提出了一个新的出了一个新的时空域多运动估计和分割方法。时空域多运动估计和分割方法。

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page4949

形态学形态学空域空域分割的目的分割的目的• 给出按某些准则划分出一致性区域,再应用给出按某些准则划分出一致性区域,再应用

基于区域的编码方法以提高编码效率。基于区域的编码方法以提高编码效率。

• 为视频目标分割提供一个很好的划分基础和为视频目标分割提供一个很好的划分基础和空间拓扑约束。空间拓扑约束。

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5050

基于数学形态学的层次化图象分割基于数学形态学的层次化图象分割

•多尺度重建滤波器:在不同尺度下多尺度重建滤波器:在不同尺度下简化图象以简化图象以利于分割。利于分割。

•水线算法给出区域划分。水线算法给出区域划分。

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5151

水线分割的过分问题水线分割的过分问题

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5252

解决方法解决方法• 利用重建算子修改梯度图象利用重建算子修改梯度图象

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5353

多尺度重建滤波器下的梯度水线多尺度重建滤波器下的梯度水线

• 具有良好结构对应性的层次化区域划分方法

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5454

图象的区域金字塔表示图象的区域金字塔表示

•二维图象结构特征的尺度化提取方法

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5555

漂移和层化变换漂移和层化变换

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5656

对比对比

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5757

多多尺尺度度匹匹配配

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5858

实验实验

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page5959

多运动分割多运动分割

•困难:运动分析的综合问题困难:运动分析的综合问题•方法:鲁棒性运动参数估计和运动预测方法:鲁棒性运动参数估计和运动预测

•基本假设:参数化区域运动在拓扑分布基本假设:参数化区域运动在拓扑分布上的一致性上的一致性

基于图象层次化区域表示和一致性运基于图象层次化区域表示和一致性运动约束的区域分裂动约束的区域分裂基于运动测度的连通形态滤波的区域基于运动测度的连通形态滤波的区域合并合并区域补偿解决遮挡问题区域补偿解决遮挡问题

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page6060

半自动语义运动分割半自动语义运动分割

•语义分割语义分割 : : 新一代视频压缩的关键技术新一代视频压缩的关键技术•困难:语义定义的困难和目标形体知识困难:语义定义的困难和目标形体知识

的缺乏,以及多运动分割的缺乏,以及多运动分割•方法:交互式标定解决初始语义分割方法:交互式标定解决初始语义分割

多尺度形态结构匹配解决全局运动多尺度形态结构匹配解决全局运动

基于层次化区域表示的参数化多运动基于层次化区域表示的参数化多运动估计解决随后的自动目标跟踪估计解决随后的自动目标跟踪

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page6161

框架框架

Objects Mask(1)

Homogeneous Motion EstimationThreshold1

ValidateNoSplitting

Merging

Prediction

Global Motion

for nextimage

Compensation

Objects Mask(2)

for nextImage

for nextimage

Threshold3

Threshold2

Multiple Features Based Region Growing

Interactive Marking

Image1 Image2 Image(n)

Areas inScale1

......Areas inScale2

Areas inScale(n)

Areas inScale1

......Areas inScale2

Areas inScale(n)

....

图象视频数据理解与检索图象视频数据理解与检索

程序界面程序界面

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page6363

多尺度交互标定多尺度交互标定

NLPRNLPR 图象视频数据理解与检索图象视频数据理解与检索 2002005-04-23 Page5-04-23 Page6464

分割实验分割实验 11

图象视频数据理解与检索图象视频数据理解与检索

分割实验分割实验 22

top related