我们从来没有像现在这样,被具备强大计算能力的移动终端随时随地的联
接。移动网络已经从提供最基本的语音交流与短信传递,演进到提供丰富多彩
的数据业务连接,实现文本,图形,视频等综合业务的体验。
移动网络建设已经从以语音为核心,走向以数据为核心的网络规划与建设。
随着 LTE 网络的普及,运营商已经逐步具备提供有质量保证的视频业务能力。
在接下来的几年时间,我们认为:
视频业务将成为移动网络的基础业务1
3
2
移动网络的新增流量绝大部分来自于视频。视频成为运营商收入的
主要来源。视频加速向 LTE 网络的迁移。
高清视频在移动网络将无处不在
移动宽带网络将提供有质量保证的无处不在的 720P 视频流。视频
的覆盖将接近甚至达到语音的覆盖水平。 voice service.
移动视频 MOS 将成为衡量视频网络性能的基本准则
我们需要一系列的指标来衡量移动网络的视频业务性能,进而反映
用户在观看视频的体验。这将带来网络架构的变化,走向以视频为核心
的网络规划与建设。
1
视频业务成为移动网络的基础业务图形化的信息交流,一直是信息传递最生动直接的方式。从
岩洞画,埃及的壁画,走向动画,走向视频。图形化的信息一直
都是最高级的信息交流与传递方式。移动宽带技术让视频无处不
在。
视频业务,已经逐渐成为继语音业务之后的移动网络基础业
务。视频成为新一代基础业务。对全球的流量分析我们发现,数
据业务最近几年的新增流量大部分来自于视频业务。视频业务,
特别是高清视频,极大的刺激了数据业务的消费,实现用户数据
消费的快速增长。
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
32%
2013.6 2014.92013.12 2014.3 2014.12 2015.3
10.00%
0%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%64.00%
15.00% 16.00%
3.00% 2.00%
50%
40%
30%
20%
10%
图 1 全球典型移动网络的业务流量分布情况
同时还要看到,数据业务流量快速增长的同时,也伴随着数
据业务的资费的快速下降。数据业务增长的速度,必须要快于资费
下降速度,实现总收入的良性增长。
我们看到,数据业务中的视频业务,肩负起了实现新增收入
的重要责任,已经逐步成为移动宽带网络的基础业务。
高清视频在移动网络中无处不在:从 720P 向 2K,4K 及以上的分辨率快速发展
高清晰度电视是一种新的电视业务,国际电联给出的定义:“高清晰度
电视应是一个透明系统,一个正常视力的观众在距该系统显示屏高度的三倍
距离上所看到的图像质量应具有观看原始景物或表演时所得到的印象”。高
清数字电视标准 720P 是高清视频标准之一。
目前高清视频节目源基本都从 720P 的分辨率起步。720P 的分辨率为
1280X720,第一次实现了接近百万像素的显示,基本能满足消费者对视频
清晰度的要求。
随着技术的进步,以及高清屏幕的成本快速下降,目前在移动终端上,
屏幕的的分辨率基本都达到或超过了 720P 的清晰度。720P 的屏幕成为智
能手机的基本配置。而主流移动终端甚至基本上达到了 1080P 以上的清晰
度。移动终端的硬件显示能力已经完全具备 720P 等高清视频的普及。
720P 技术下的视频码流在不同的编码技术下,会有所不同,但基本上
会在 1.5Mbps 左右。考虑到视频点播的初始等待时延,以及移动环境下信
号有信号切换,快速衰落的问题,网络速率在 3-5Mbps 左右就可以获得较
好的 720P 的视频业务体验。而 HSPA 技术的普及,以及 LTE 网络的规模部署,
已经让网络传输能力基本具备随时随地 3Mbps 以上。
综上,720P 作为高清数字化电视的起始分辨率,在移动宽带网络上已
经具备了规模推广和消费的可能。未来的移动宽带网络,必须实现 HDTV
的无处不在,从而推动高清视频消费成为普及业务。
2015201420132012
77%
55%38%
23%
2015201420132012
51%
31%
18%
10%
图 4 720P 移动视频的产业链情况
32
图 2 韩国移动网络业务流量分布趋势
图 3 英国 EE 移动网络的业务流量分布情况
而在高端领域,2K 的分辨率已经成为区域行业领导者的竞争力所在,
也是产业链领导者所争夺的焦点。2K 分辨率指的是屏幕分辨率达到了一种
级别,屏幕横向像素达到 2000 以上 , 是数字影院的主流放映分辨率。2K 分
辨率有多种类别,最常见的影院 2K 是指 2048×1080。iPhone6 Plus 的分
辨率是 1920X1080,非常接近 2K 分辨率。而目前在手机上的标准 2K 的分
辨率更多指 4 倍的 720P 分辨率,达到了 2560X1440 的分辨率。目前 2K
手机已经发布了 40 多款,预计到明年,新手机 10% 以上的发货都将是 2K
屏幕。这将带来高端视频市场的激烈竞争。
2018201720162015
41%22%10%4%
Mbps35
30
25
20
15
10
5
0720P 1080P 2K 4K
(13Mbps,40ms)
2K 视频的数据流基本在 6Mbps 左右。同时,在移动环境下,移动网
络的传输速率在 10-15Mbps 能基本满足流畅的 2K 视频体验。全球的领先
运营商的 LTE 网络基本能达到甚至超过这个水平。绝大多数的 LTE 网络经
过优化,都有可能达到这个速率,提供可靠的 2K 视频的传输。
而目前兴起的通过手机屏幕实现的 AR/VR 体验,是通过透镜系统,极
大扩展屏幕模拟的视角,将手机的分辨率需求推向一个更高的层面。按照视
网膜分辨率的公式
我们可以推导出人眼可识别的像素点密度。
如下表所示,超宽视角将引发超超高密度的屏幕需求。我们一般人的
可分辨的最小视角为 1 角分,一个屏幕,不管距离远近,如果其上面的每
一个点都能够提供等于或小于 1 角分的视角,那么就达到了人眼所能够分
辨的极限。例如当前主流的 VR 设计规格是模拟人观看 20 米的 1060 寸大
屏幕,根据人眼的 PPI 识别能力理论,我们可以计算出 20 米观看距离,入
门级视网膜 PPI 需求为 4.46。而 2K 分辨率的手机视频在 VR 设计会切割成
两个 1080p 画面,在 1060 寸大屏幕上,其 PPI 为 2.08(达到 PPI 需求的
46.6%)对于 6 寸手机,舒适观看距离为 34cm,入门级视网膜 PPI 需求为
258。对于 360p 视频,其 PPI 为 122(达到 PPI 需求的 47.3%。因此,观
看 2K 分辨率的 VR 视频,体验和在 6 寸屏幕上观看 360p 视频接近。为了
达到入门级视网膜 PPI 的体验,6 寸屏至少需要 720p 以上,而 VR 至少需
要达到 6K(两个 4K 画面)的分辨率。
θ
θ
36
32
28
24
20
16
12
8
4
0
0
0.39
VirGlass Oculus iMax
0.5 1 1.5 2
Oculus DK2 iMax
4080
68 100 120
6000 7200
o o o
54
屏幕的高度
眼睛到屏幕的距离眼睛到屏幕的距离
图 6 超宽视角示意
图 7 主流虚拟现实产品的分辨率需求
图 52K 移动视频产业链以及空口带宽需求
h
d
移动视频业务质量研究
随着移动宽带网络的发展,其承载的业务从传统的语音,变成多种多样
的移动互联网应用,尤其视频应用已经成为 MBB 网络的基础业务。如果对
这些应用的业务体验用传统的 KPI 方法进行定义,由于应用特征的不同,需
要同时用多个指标来描述,并且不同应用的指标定义也存在差异。这对业务
质量呈现和网络规划都会带来困扰,因此需要采用一个综合指标来定义业务
体验。
根据人因工程研究,人们对体验的感知存在多种等级,例如:从不可察
觉,到偶然性注意力转移,到经常性注意力转移,甚至最后放弃。因此这个
综合指标应该能够直接反映用户观看视频时主观感受的差异性。
MOS 分值 主观意见 主观感受
5 优秀 无感知的
4 良好 无感知但些许恼人的
3 一般 轻微恼人的
2 差 恼人的
1 很差 非常恼人的
对于语音业务,ITU 采用基于人的主观体验 MOS(主观平均意见分)分来
定义语音质量。在实际应用中,由于主观评估方法成本高费时长,通常采用客观
测量方法来获取MOS分,从而评估语音质量。对于移动视频应用的综合体验指标,
我们可以借鉴语音 MOS 分的思想,用移动视频 MOS 分来综合评估移动视频应
用多个 KPI 指标。
建立移动视频 MOS 评估体系,至少具有两方面的好处:一方面,通过分值
可以比较直观地反映用户观看视频时主观感受的等级;另一方面,客观地呈现视
频源质量及传输损伤等因素对质量体验的影响。
在移动视频 MOS 定义中,需要考虑以下关键原则:
1、可延续性。指标含义和等级体系需要和现有的语音 MOS 分保持一致。
2、可测量性。在实际的商业化实现中,客观的指标分数可以通过一些容易
测量的参数被产品计算出来。
3、移动性。需要考虑移动网络和终端的特点,例如终端屏幕大小会影响到
用户的体验。
4、可演进性。随着移动应用的业务源质量越来越高,用户体验会逐渐提升。
因此最佳体验的定义需要考虑应用的发展变化。
3.1 研究范畴
• 应用范围
移动视频 MOS 的适用范围包含:
• 基于 HTTP 的流媒体业务,例如 OTT 业务(比如 YouTube、搜狐视频等),以及运营商自营的视频业务(基于 HTTP 协议)
• 协议支持非自适应视频,例如 HTTP 渐进下载;以及自适应视频,例如 HTTP Live Streaming (HLS) 和 Dynamic Adaptive Streaming over HTTP (DASH)
• 目前仅支持 2D 视频。未来将研究 3D 和虚拟现实 (VR) 业务
• 支持的视频容器格式包含 Flash (FLV)、MP4、TS、WebM 和 3GP 等。此模型对容器格式不感知。
对于自适应视频,或者长时间的非自适应视频,一个完整的视频可以
切割成多个分段,在测量过程中每个视频分段的业务质量将被评估。最终的
vMOS 得分由每个视频分段的得分综合决定,将反映这个视频的业务质量。
同时,用户对视频播放器的交互行为(比如暂停、恢复、快进、回退、跳进等)
将改变视频业务流的特征。为了简化视频业务质量的评估,评估时不考虑用户
的操作行为。
• 关键要素分析
通过与牛津大学互联网学院和北京大学新闻与传播学院的联合研究,
mLAB 发现视频内容清晰度、初始缓冲时延和卡顿时长是影响用户体验的最重
要因素。
影响视频内容清晰度的关键因素包含视频编码方式(视频编码压缩算
法,例如 H.264, H.265, VP9;以及视频编码等级,例如 Main Profile, High
Profile)、视频分辨率、视频码率和视频帧率。
视频播放过程中的缓冲是在视频传输过程中产生的。较差的网络覆盖和
带宽会导致视频缓冲的发生。评估缓冲影响时,主要考虑初始播放阶段的加载
时间,以及播放过程中的卡顿时间。
76
表 1: ITU-T P.800 MOS 定义
因此我们对移动视频 MOS 的三个关键因素(视频内容质量、初始缓
冲时延,卡顿时长)进行建模,并且通过理论和实验分析来量化这些因素
的影响。
• 实验方法论
mLAB 与国内领先的人因工程实验室进行合作,通过眼动仪和生理仪
测量实验者在观看视频过程中的感知情况,最终对关键因素的影响进行量
化。
图 9 眼动仪和生理仪
MOS:5
Excellent
Good
Fair
Poor
BadMOS:4~5
MOS:3~4
MOS:2~3
MOS:1~2A0
A1
A2
A3
A4
A5
图 10 人体主观感知测量方法论
• 输出结果
基于理论研究、实验分析、数据挖掘和公式拟合,mLAB 将输出以下
内容:
• 移动视频业务 MOS 分标准定义(1~5 分),包含视频内容质量、初始缓冲时延,卡顿时长占比
• 给出一套客观测量模型,通过一系列输入参数,可以计算出最终的vMOS 得分
3.2 移动 vMOS 的关键发现
• 最佳屏幕 PPI 和分辨率要求
根据 ITU-T P.910/911/920 标准给出的视频质量主观评估方法,要求
实验时测试人员的观测距离为 1-8H,其中 H 为观测对象的高度。
对于移动视频,我们需要考虑移动终端的大小以及手持观看的舒适程
度。因此我们基于人体生理感知,对典型尺寸设备的视频最舒适观看距离进
行了数百次实验。下表为我们的实验结果。
终端型号 屏幕尺寸( 英寸 )
终端大小( 毫米 )
最佳观看距离 (cm/H)
Huawei P6 4.7 130×65 29.7 (4.6H)
Samsung Note4 5.7 154×79 32.4 (4.1H) Huawei Mate7 6 157×81 33.7 (4.1H)
Huawei S7 Tablet 7 200×110 34.6 (3.1H)
Apple iPad mini 7.9 200×135 37.1(2.7H)
Apple iPad air 9.7 240×170 40.6 (2.4H)
从实验结果我们可以看到,舒适观看距离和屏幕尺寸存在一定的关系,
约为 2.5H(平板电脑)– 5H(智能手机)之间。
1897 年,德国医生 Konig 在论文中提出人眼能分辨的两个明暗线条
极限由其最小夹角决定,称为视觉张角。1990 年,美国眼科学教授 Curcio
采用圆环作为识别对象,更符合当前的显示技术。其测试结果表明视力非常
好的测试对象视觉张角为 0.4 角分,一般普通视力的人视觉张角为 1 角分。
因此在观看距离为 d 情况下,人眼能识别的最小像素大小为:p =
2*d*tan(θ/2)。其中 θ 为视觉张角。在此条件下,我们可以计算出对应的
终端 PPI 需求为 2.54/p。
以 9.7 寸平板电脑为例,其舒适观看距离为 41cm,计算出对 9.7 寸终
端的视网膜 PPI 极限需求为 534,入门级视网膜 PPI 需求为 214。目前对 9.7
寸终端,720p/1080p/2k/4K 屏幕的 PPI 分别为 151/227/303/461,5K
屏幕(分辨率为 4800*2700)的 PPI 为 568。5K 视频是当前移动终端才能
达到视频清晰度的极限体验 5 分。
98
图 8 研究框架
实验素材以零觉察作为基线,用户的口语报告“放弃、无法容忍、厌
恶”作为负向体验极限。根据生理指标,寻找零觉察和负向体验极限之间
的情绪心理指标突变。然后根据现有情绪定义标准,确定关键指标点(1~5
分)。最后用口语报告和量表对结果进行验证。
由于现有的屏幕分辨率最高可达 2K,而现有的高分辨率视频(2K/4K)
源很少,对于研究显示质量的效果不如图片。因而在研究智能终端的显示质
量的时候我们选用的是图片。我们挑选了不同高分辨率的高质量图片进行测
试,并且源图片的内容包含了不同复杂度的场景。
分辨率 最高得分
5K 及以上 5
4K 4.9
2k 4.8
1080P 4.5
720P 4
480P 3.6
360P 2.8
上表的研究结果代表了该分辨率视频理论上能达到的最佳体验得分,在
实际的视频内容制作中,由于采用了不同的视频压缩方式(例如视频编码算
法和等级,视频比特率等),这些都会降低视频的质量得分。
视频内容质量得分计算公式的输入参数包含:视频分辨率、视频编码
信息(编码算法和编码等级),以及视频比特率。例如,一个典型的 2K
(2560*1440) 分辨率的 OTT 视频,采用了 H.264 High Profile 视频编码算
法,视频码率约为 6Mbps。根据公式计算,2K 视频的内容质量得分是 4.63。
• 常见视频分辨率标准 • 初始缓冲时延标准和卡顿占比标准
体验等级 初始缓冲时长 卡顿时长占比
优秀(5) 100 毫秒(零等待) 0%
良好(4) 1 秒 5%
一般(3) 3 秒 10%
差(2) 5 秒 15%
很差(1) 10 秒 30%
1110
对于缓冲相关的体验分析,我们对不同的视频初始缓冲时延和卡顿时间
占比进行了大量实验。通过对实验过程中实验者的生理指标变化进行分析,
我们找到了不同等级体验所对应的缓冲情况。
• 移动 vMOS 计算方法
通过 AHP 层次分析法对视频类别、清晰度、屏幕尺寸、观看距离、
等待时延和卡顿时长占比等因素计算,我们发现清晰度、等待时延和卡顿
时延对体验影响最大,而且这些因素和网络质量密切相关。
出于降低模型公式复杂度和工程实现综合考虑,我们对模型参数进行
了简化,计算时只考虑视频清晰度、初始缓冲时延和卡顿因素对主观体验
的影响。
例如,一个典型的 2K 分辨率 OTT 视频(内容质量得分为 4.63),在
良好等级的加载视频体验(初始缓冲实验是 1 秒)和优秀等级的视频播放(没
有卡顿),最终的 vMOS 得分是 4.2。
基于移动 vMOS分析方式,我们对一些移动网络做了vMOS质量分析,
按照 vMOS 得分对网络总体覆盖占比的不同,我们可以大致把网络区分为
不同等级的移动视频性能的移动网络。
其中一种方法是基于 4 分的占比来推断整体网络的视频性能。因为 4
分是高清视频体验良好的门槛。4 分以上为高清良好体验,4 分以下为一般
体验。所以基于 4 分在网络覆盖中的占比,对比部分主观体验调研,我们
可以得到网络总体上的视频体验评估。
目前对部分网络的局部研究表明,对于 4 分以上占比达到 80% 以上,
为视频体验比较优秀的网络。4 分性能在 50%-80% 之间的,用户体验基
本能够保证。4 分覆盖低于 50% 的网络,用户体验会受到极大影响。大量
的区域用户会由于网络传输能力不足而降低分辨率,或者引发较长时间的
等待,以及过于频繁的卡顿。
2<vMOS<3
vMOS<2
3<vMOS<4
vMOS>4
超越想象的未来
随着 LTE 网络的全面规模部署,逐步引入多载波聚合技术,Massive
MIMO,低时延技术等关键能力,以及 4.5G 技术的成熟应用,网络作为视
频业务的高速管道,很快将能提供高达 50Mbps 的平均业务能力,甚至在
大量的热点与室内提供超过 100Mbps 的超带宽。视频的极致体验将无处不
在。
未来,移动视频业务不仅仅会继承传统的视频播放,虚拟影院的电影
观看,高清视频的即拍即传;未来还将发展出大量基于视频的交互应用。特
别是 VR/AR 的技术支撑下出现的各类游戏、办公、购物的虚拟交互业务,
将会让我们惊叹于创新的永无止境。
我们相信,移动视频,将再一次改变我们的生活。
1312