第十章运动图像压缩标准 mpeg

多媒体技术基础与应用

第十章运动图像压缩标准MPEG

10.1 从 MPEG1 到 MPEG7 ： MPEG 标准简述

10.2 MPEG 的编码与实现过程

10.3 基于对象编码技术的 MPEG-4

10.4 基于内容的信息存取与 MPEG-7

10.5 H.261 与 H.263


10.1从MPEG1到MPEG7：MPEG标准简述

10.1.1 视频压缩技术历史概述视频能够压缩的根本原因在于视频数据具有较高的冗余度。

压缩就是指冗余的消除，主要基于两种技术：统计学和心理视觉。消除统计冗余的基本依据是视频数字化过程在时间和空间上采用了规则的采样过程。视频画面数字化为规则的像素阵列，其密集程度适于表征每点最高的空间频率，而绝大多数画面帧包含非常少甚至不含这种最高频率的细节。


10.1.2 MPEG-1 MPEG-1 标准 1992 年公布，其任务是在一种可接受的质量

下，把视频和伴音信号压缩到速率大约为 1.5Mb/s 或更高的单一的 MPEG 数据流。它可对 SIF （标准交换格式）分辨率(NTSC 制式为 352×240 ； PAL 制式为 352×288) 的图像进行压缩，每秒播放 30 帧，具有 CD 音质，图像质量基本与 VHS 家用录像机相当。

10.1.3 MPEG-2 它是一个直接与数字电视广播有关的高质量图像和声音编码标

准。 MPEG2 所能提供的传输率在 3 ～ 10Mbit/s 之间，在NTSC 制式下的分辨率可达 720×486 ，可提供广播级的图像质量和 CD 级的音质。 MPEG-2 主要针对高清晰度电视(HDTV) 所需要的视频及伴音信号，与 MPEG-1 兼容。


10.1.4 MPEG-4 MPEG-4 旨在为视音频数据的通信、存取与管理提供一个灵

活的框架与一套开放的编码工具。这些工具将支持大量的应用功能 ( 新的和传统的 ) 。

10.1.5 MPEG-7 MPEG-7 既不同于基于波形压缩的表示方式如 MPEG-1 和

MPEG-2, 又不同于基于对象的表示方式如 MPEG-4 ，而是将对各种不同类型的多媒体信息进行标准化描述，并将该描述与所描述的内容相联系，以实现快速有效的搜索。 MPEG-7的功能与其他 MPEG 标准互为补充。


10.2 MPEG 的编码与实现过程

MPEG 的数据分为 MPEG 视频、 MPEG 音频和同步信号三个部分，视频流包含画面信息，音频流包含伴音信息，所有播放 MPEG 图像和伴音数据所需的时钟信息都包含在同步信号流中。

图 10-1 MPEG 的组成


10.2.1 MPEG 编码的基本思想 MPEG 数字视频编码技术实质上是一种统计方法。在时间和

空间方向上，视频序列通常包含统计冗余度。 MPEG 压缩技术所依赖的基本统计特性为帧内与帧间的相关性，这里包含这样

一个设想：即在各连续帧之间存在简单的相关性平移运动。

图 10-2 连续视频画面之间通常存在着较大的相关性


10.2.2 MPEG 的流结构 MPEG 为更好地表示编码数据，规定了一个分层的结

构，自上到下分别是： MPEG 流（ MPEG stream ）图像组（ GOP ， Group of Pictures ）图像（ Image ）宏块（ Macro block ）块（ Block ）


图 10-3 MPEG 流的分层结构


MPEG 流（ MPEG stream ）包含音频流和视频流。视频流是由图像组（ GOP ）构成的图像序列，有表示开始的图像序列头和表示结束的图像终止码。

图像组（ GOP ）是为方便随机存取而加的，其结构和长度均可变。图像组是随机存取视频单位。一个 GOP由一串 IBP 帧组成，起始为 I帧。 GOP 的长度是一个I帧到下一个 I 帧的间隔。

图像 (Image) 是独立的显示单位，也是基本编码单位。宏块（ Macro block ）是进行运动补偿的基本单位。由一个 1616 像素的亮度信息和两个 88 像素的色度信息组成的块称为宏块。

块（ Block ）是由 88 像素组成的基本单位，是进行DCT 运算的单位，块可分为亮度块或色度块 ( 图 10-4) 。


图 10-4 块可分为亮度块或色度块

图 10-5 宏块是进行运动补偿的基本单位


10.2.3 信号的采样在进行视频编码前， R 、 G 、 B 信号需变换为亮度信号 Y

和色差信号 Cb 、 Cr 的形式（图 10-6 ）。色差定义了颜色的两个方面—色调与饱和度，分别用 Cr 和 Cb来表示。

图 10-6 在编码前， RGB 信号分解成 Y ， Cr 和 Cb 信号分量


10.2.4 MPEG 图像的类型 MPEG由三种类型的图像组成（如下图）：

I图（帧内图 Intra Picture ）是对整幅图像采用 JPEG 编码的图像，它是一个独立的帧，其信息由自身画面决定，不需要参照其他画面而产生，它是 P 图和 B 图的参考图。

P 图（前向预测帧 Predicted Picture ） ,它参照前一幅 I或 P 图像做运动补偿编码。

B 图像 ( 双向预测 Bidirectional Prediction) ，它参照前一幅和后一幅 I或 P 图像做双向运动补偿编码。


10.2.5 MPEG 的帧序列一个典型的 MPEG 帧序列

图 10-8 一个典型的 MPEG 帧序列


一个 MPEG 在解码播放时的实际帧序列

图 10-9 MPEG 在解码播放时的实际帧序列


10.2.6 运动预测与补偿运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之

一。运动补偿工作于宏块一级，主要是消除预测图与插补图在时间上的冗余，以提高压缩比。运动补偿是一种预测，它不是对每个像素预测，而是以 1616 的图像宏块为单位的预测。

图 10-10 运动补偿的例子


10.2.7 运动补偿编码器的结构运动补偿预测编码器的结构如下图所示。图中应用了延迟时间

可变的预测存储器。该存储器有一个帧的容量，一帧前的图像被存储起来。可以通过以宏块为单位，检测出画面中的运动部分。

图 10-11 运动补偿预测编码器的结构示例


10.3 基于对象编码技术的 MPEG-4

10.3.1 传统 MPEG 编码技术的局限在传统的视频压缩中，以一连串的影像 (image) 为压缩对象，也就是对于一整张画面 ( 帧 frame)做数据压缩。如此会将整张画面不重要的部分（如单调的背景）也一起压缩进去而占有一定程度的数据量。另外，将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应。

未能考虑信息获取者的主观意义与人类视觉系统（ HVS ， Human Visual System ）主观特性，未能考虑事件本身的特性如具体含义、重要性以及后果等等，不能对图像内容进行访问、编辑和回放等工作；

缺乏一套有系统与有效率的标准。


10.3.2 何谓对象编码基于对象编码，是指依赖于对视频场景中任意形状对象检测的

编码机制。 MPEG-4 是目前基于对象编码机制，是对运动图像和伴音编码的算法。

图 10-12 基于对象编码技术的场景示例


10.3.3 MPEG-4核心编码技术 -AV 对象 AV 对象是 MPEG-4 为支持基于内容编码而提出的重要概念。

对象是指在一个场景中能够访问和操纵的实体，对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。

MPEG-4 对 AV 对象的操作主要有： 1．采用 AV 对象来表示听觉、视觉或者视听组合内容。 2．允许组合已有的 AV 对象来生成复合的 AV 对象，并由此生成 AV场景。

3．允许对 AV 对象的数据灵活地多路合成与同步，以便选择合适的网络来传输这些 AV 对象数据。

4．允许接收端的用户在 AV场景中对 AV 对象进行交互操作。 5 ． MPEG-4 支持 AV 对象知识产权与保护。


10.3.4 基于场景的对象分割与编码技术 MPEG-4 实现基于内容交互的首要任务就是把视频 /图像分割成不同对象或者把运动对象从背景中分离出来，然后针对不同对象采用相应编码方法，以实现高效压缩。

MPEG-4 的编码理念是：在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频 ,其过程如图所示。


10.3.5 视频对象平面 -VOP 我们根据人眼感兴趣的一些特性如形状、运动、纹理等，将

图像序列中每一帧中的场景，看成是由不同视频对象平面VOP (Video Object Plane) 所组成，而同一对象连续的VOP称为视频对象 VO 。

VOP 是视频场景的语法对象，除轮廓信息外，主要由亮度和 , 色度分量（ Y,U,V ）组成。 VOP 可以是任意形状，可由半自动分割来检测。

图 10-14 为实现基于内容交互，人物由简单到复杂的轮廓物征提取


视频对象平面（ VOP ， Video Object Plane ）是视频对象（ VO ）在某一时刻的采样， VOP 是 MPEG-4 视频编码的核心概念。

图 10-15 VOP 视频编码技术


10.3.6 运动估计与运动补偿技术 MPEG-4 采用运动预测和运动补偿技术来去除图像信息中的

时间冗余成分，而这些运动信息的编码技术可视为现有标准向任意形状的 VOP 的延伸。 VOP 的编码有 3 种模式，即帧内(Intra-frame) 编码模式 (I-VOP) ，帧间 (Inter-frame)预测编码模式 (P-VOP) ，帧间双向 (Bidirectionally)预测编码模式 (B-VOP) 。

图 10-16 MPEG-4 的运动预测和运动补偿技术


10.4 基于内容的信息存取与 MPEG-7

10.4.1 MPEG-7 概述 MPEG-7 的产生是为了解决上述问题，其重点在于影音内容

的描述和定义，以有弹性、具延伸性、多层次及明确的数据结构和语法来定义影音数据的内容，经由 MPEG-7 的定义格式，使用者可以有效率地搜寻、过滤和定义想要的影音数据。

10.4.2 MPEG-7: 基于信息内容的搜索引擎 MPEG-7 是属于信息方面的检索和搜寻，而所谓信息，则可

以是影像或音乐；换句话说， MPEG-7 在本质上来说就是我们常常在网上使用的搜索引擎，只不过它提供的是多媒体的信息查询服务。


10.4.3 MPEG-7 中的主要概念数据 (Data) 是用 MPEG-7 描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。

特征 (Feature) 指数据的特性。特征本身不能比较，而要用有意义的特征表示 ( 描述子 ) 和它的实例 ( 描述值 ) 。

描述子 (Descriptor ， D) 是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。

描述值 (Descriptor Value) 是描述子的实例。描述模式 (Description Scheme ， DS) 说明其成员之间的关系结构和语义。


描述 (Description) 一个描述由一个描述模式 ( 结构 ) 和一组描述值组成。

编码的描述 (Coded Description) 是对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。

描述定义语言 (Description Definition Language ， DDL) 是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。


图 10-18 MPEG-7 应用的表示


10.4.4 MPEG-7 的范围 MPEG-7 是针对存储形式 ( 在线、脱机 ) 或流形式 ( 如

Internet 上的广播、推拉模型 ) 的应用而制定的，并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时，信息是与内容相关的。

下图是 MPEG-7处理过程的一种高度抽象示意图，用于解释MPEG-7 的范围。它包括特征抽取 ( 分析 ) 、描述本身和搜索引擎 ( 应用 ) 。


10.5 H.261 与 H.263 H.261 视频编码标准是 CCITT （国际电报电话咨询委员会）的建议，这个建议支持实时动态图像的压缩编解码，应用目标是可视电话和电视会议。

H.263 是 ITU-T 的关于低于 64kb/s比特率的窄带通道视频编码建议，其目的是能在现有的电话网上传输活动图像。

H.263 是在 H.261建议的基础上发展起来的，其信源编码算法仍然是帧间预测 /DCT混合编码，但 H.263 与 H.261 不同的是，它采用半象素的分辨率进行运动补偿，而且， H.263还提供了 4种可协商选择的编码方法：无限制范围的运动矢量、基于语法的算法编码方法、先进预测和 PB 帧。

第 十章 运动图像压缩标准 mpeg

Documents

第十章运动图像压缩标准 mpeg