anÁlisis y evaluaciÓn de las tÉnicas utilizadas para la...
Post on 16-Sep-2019
5 Views
Preview:
TRANSCRIPT
Escuela Técnica Superior de Ingeniería
Universidad de Sevilla
ANÁLISIS Y EVALUACIÓN DE
LAS TÉCNICAS UTILIZADAS
PARA LA TRANSMISIÓN DE
VÍDEO EN 3D
Proyecto Fin de Carrera
Autor: Víctor José Venegas Lumpié
Tutor: José Ramón Cerquides Bueno
Departamento: Tª Señal y Comunicaciones
Ingeniería de Telecomunicación
Sevilla, Marzo de 2014
DEDICATORIA
A mi familia por confiar siempre en mí.
Y en especial a mis padres y mi hermana
por su gran apoyo en todo momento.
Índice
Índice ............................................................................................................................................. 3
Índice de Figuras ........................................................................................................................... 5
Índice de Tablas ............................................................................................................................. 7
1 Introducción .......................................................................................................................... 8
1.1 CONTEXTO ..................................................................................................................... 8
1.2 OBJETIVO ....................................................................................................................... 8
2 Conceptos básicos ............................................................................................................... 10
2.1 VISIÓN 3D .................................................................................................................... 10
2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D ................................................................. 10
2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES ESTEREOSCÓPICAS .............. 12
2.2.1 AIDED-VIEWING ................................................................................................... 12
2.2.2 FREE-VIEWING ..................................................................................................... 15
2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D .................................................... 17
2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA) .................. 18
2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA) ...... 18
2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF) ......................................... 19
2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D) ................................. 19
2.4 FORMATOS DE VÍDEO PARA 3D .................................................................................. 19
2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA) .................................... 19
2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV) ................ 20
2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)........................................... 21
2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D) .......................................................... 24
2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC) .................................................. 26
2.4.6 FORMATO MVD (MVC+D) ................................................................................... 26
2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV) ............................................................ 27
2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES) ........................................................ 27
2.4.9 RESUMEN DE FORMATOS ................................................................................... 28
2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO ESTEREOSCÓPICO.......... 28
2.5.1 CODIFICACIÓN ESTEREOSCÓPICA ........................................................................ 29
2.5.2 CODIFICACIÓN PARA EL FORMATO V+D ............................................................. 32
2.5.3 CODIFICACIÓN PARA EL FORMATO MVC ............................................................ 34
2.5.4 CODIFICACIÓN PARA EL FORMATO MVD ............................................................ 36
2.5.5 CODIFICACIÓN PARA EL FORMATO LDV .............................................................. 38
2.5.6 CODIFICACIÓN PARA EL FORMATO DES .............................................................. 38
2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265 ........................... 38
3 Metodología ........................................................................................................................ 42
3.1 ESTUDIO DE LAS TASAS DE BITS .................................................................................. 42
3.1.1 PARÁMETROS DEL ESTUDIO ................................................................................ 42
3.2 TASA DE BITS PARA OCA ............................................................................................. 53
3.3 TASA DE BITS PARA CSV .............................................................................................. 55
3.4 TASA DE BITS PARA CFC+............................................................................................. 55
3.5 TASA DE BITS PARA V+D .............................................................................................. 56
3.5.1 TASA DE BITS PARA MPEG-C PARTE 3 ................................................................. 56
3.5.2 TASA DE BITS PARA VÍDEO AUXILIAR - H.264 ...................................................... 57
3.6 TASA DE BITS PARA MVC ............................................................................................. 59
3.7 TASA DE BITS PARA MVD ............................................................................................ 61
3.8 TASA DE BITS PARA LDV .............................................................................................. 62
3.9 TASA DE BITS PARA DES .............................................................................................. 63
4 Análisis de transmisión ........................................................................................................ 64
4.1 TRANSMISIÓN DE LAS SEÑALES DE 3DTV EN EL ESTÁNDAR DVB-T ............................ 64
4.1.1 CARACTERÍSTICAS TÉCNICAS DE LA RED TDT EN ESPAÑA ................................... 64
4.1.2 COMPARACIÓN DE LOS ESTÁNDARES DVB-T /DVB-T2 ....................................... 65
4.1.3 EL ESTÁNDAR DVB 3D TV .................................................................................... 66
4.1.4 GENERACIÓN DEL TRANSPORT STREAM Y MULTIPLEXACIÓN ............................ 69
4.1.5 CODIFICACIÓN MODULACIÓN Y TRANSMISIÓN DE LA SEÑAL DE TV-3D ............ 73
4.2 TRANSMISIÓN DE LAS SEÑALES 3DTV SOBRE IPTV ..................................................... 76
4.2.1 CONCEPTOS SOBRE IPTV ..................................................................................... 76
4.2.2 TÉCNICAS DE TRANSMISIÓN EN SISTEMAS IPTV ................................................. 78
4.3 RESULTADOS DE LAS PRUEBAS DE TRANSMISIÓN ...................................................... 81
4.3.1 TRANSMISIÓN DE 3DTV EN EL ESTÁNDAR DVB-T ............................................... 82
4.3.2 TRANSMISIÓN DE 3DTV SOBRE IPTV .................................................................. 86
5 Conclusiones y líneas de desarrollo .................................................................................... 90
5.1 CONCLUSIONES ........................................................................................................... 90
5.2 LÍNEAS DE DESARROLLO .............................................................................................. 92
Referencias Bibliográficas ........................................................................................................... 93
Glosario de Términos .................................................................................................................. 96
Índice de Figuras
Figura 2.1 Creación de sensación de profundidad ...................................................................... 10
Figura 2.2 Imagen estereoscópica ............................................................................................... 11
Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y
verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores
para obtener la visualización en 3D. ........................................................................................... 13
Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización
vertical ......................................................................................................................................... 14
Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo .... 14
Figura 2.6 Funcionamiento de los lentes "shutter" .................................................................... 15
Figura 2.7 Tecnología de barrera de parallax .............................................................................. 16
Figura 2.8 Funcionamiento monitor lenticular ........................................................................... 17
Figura 2.9 Cadena de transmisión del vídeo estéreo .................................................................. 17
Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo ................................ 18
Figura 2.11 Empaquetamiento de cuadro para formato progresivo .......................................... 22
Figura 2.12 Side by Side (SbS) ..................................................................................................... 22
Figura 2.13 Top and Bottom (TaB) .............................................................................................. 23
Figura 2.14 Configuración Tablero de ajedrez ............................................................................ 23
Figura 2.15 Configuración de Campos alternados ...................................................................... 24
Figura 2.16 Imagen con su mapa de profundidad asociado ....................................................... 24
Figura 2.17 Formato MVC + Profundidad ................................................................................... 26
Figura 2.18 Formato LDV ............................................................................................................. 27
Figura 2.19 Estructura típica de transmisión de H.264 ............................................................... 30
Figura 2.20 Codificación para OCA .............................................................................................. 30
Figura 2.21 Aplicación de H.264 en Dual-Streaming ................................................................... 31
Figura 2.22 Aplicación de H.264 en Simulcast ............................................................................ 31
Figura 2.23 Aplicación de H.264 en CFC+ .................................................................................... 32
Figura 2.24 Cadena de Transmisión para MPEG-C parte 3 ......................................................... 33
Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares ................... 34
Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP) ......................................................... 35
Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP) .................................. 36
Figura 2.28 Cadena de transmisión en MVD ............................................................................... 37
Figura 2.29 Modo de predicción de imágenes para MVD ........................................................... 37
Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización ......... 39
Figura 2.31 Modos/macrobloque ............................................................................................... 40
Figura 3.1 Diagrama de bloques de la codificación H.264 .......................................................... 45
Figura 3.2 Procesos de CABAC .................................................................................................... 48
Figura 3.3 Tasa de bits en SD ....................................................................................................... 49
Figura 3.4 Comparación de resoluciones estándar de vídeo ...................................................... 51
Figura 3.5 Valores PSNR de la comparación entre dos imágenes ............................................... 52
Figura 3.6 Fotogramas vídeo formato cromático anaglífico ....................................................... 53
Figura 3.7 Tasa de bits para un vídeo OCA de resolución SD ...................................................... 53
Figura 3.8 Tasa de bits para un vídeo OCA de resolución HD-TDT .............................................. 54
Figura 3.9 Tasa de bits para un vídeo OCA de resolución 720p .................................................. 54
Figura 3.10 Tasa de bits para un vídeo OCA de resolución 1080i ............................................... 55
Figura 3.11 Fotograma de vídeo en configuración SbS ............................................................... 55
Figura 3.12 Tasa de bits en 720p ................................................................................................. 56
Figura 3.13 Tasa de bits en 1080i ................................................................................................ 56
Figura 3.14 Tasa de bits al codificar el mapa de profundidad .................................................... 57
Figura 3.15 Vista izquierda y su correspondiente mapa de profundidad ................................... 58
Figura 3.16 Tasa de bits al codificar el mapa de profundidad .................................................... 58
Figura 3.17 Vista izquierda y derecha de una imagen estéreo ................................................... 59
Figura 3.18 Tasa de bits al codificar con MVC y n=2 ................................................................... 59
Figura 3.19 Imagen grabada con 8 cámaras espaciadas 20cm entre ellas ................................. 60
Figura 3.20 Tasa de bits al codificar con MVC y n=8 ................................................................... 61
Figura 3.21 Fotograma de la vista izquierda con su correspondiente mapa de profundidad .... 62
Figura 3.22 Tasa de bis al codificar con MVD .............................................................................. 62
Figura 3.23 Vistas izquierda y derecha con sus mapas de profundidad asociados..................... 63
Figura 3.24 Tasa de bits al codificar con LDV .............................................................................. 63
Figura 4.1 Arquitectura de transmisión genérica para señales de vídeo 3D .............................. 64
Figura 4.2 Características técnicas de la red TDT en varios países europeos ............................. 65
Figura 4.3 Canal DVB–T2 Con diversas modulaciones adaptadas al tipo de servicio ................. 66
Figura 4.4 Estándar DVB 3D TV. La parte gris muestra los aspectos tecnológicos afectados ..... 67
Figura 4.5 La disparidad permite identificar la distancia a la que se encuentra cada región sobre
la que se dibujan subtítulos. ....................................................................................................... 68
Figura 4.6 Generación del Transport-Stream .............................................................................. 69
Figura 4.7 Multiplexación de vistas en dual Streaming .............................................................. 72
Figura 4.8 Multiplexación de vistas izquierda + profundidad ..................................................... 72
Figura 4.9 Multiplexación de canales 2D y 3D con un solo Multiplexor ..................................... 73
Figura 4.10 Multiplexación de canales 2D y 3D con varios Multiplexores .................................. 73
Figura 4.11 Arquitectura general de la red IPTV ......................................................................... 78
Figura 4.12 Transmisión unicast .................................................................................................. 79
Figura 4.13 Transmisión multicast .............................................................................................. 80
Figura 4.14 Fotograma del vídeo en configuración SbS .............................................................. 81
Figura 4.15 Fotograma del vídeo en configuración TaB .............................................................. 81
Figura 4.16 Tipos de BER ............................................................................................................. 83
Figura 4.17 Ancho de banda en Unicast para configuración TaB y resolución 720p .................. 86
Figura 4.18 Ancho de banda en Unicast para configuración TaB y resolución 1080i ................. 87
Figura 4.19 Ancho de banda en Unicast para configuración SbS y resolución 720p .................. 87
Figura 4.20 Ancho de banda en Unicast para configuración SbS y resolución 1080i ................. 87
Figura 4.21 Ancho de banda en Multicast para configuración TaB y resolución 720p ............... 88
Figura 4.22 Ancho de banda en Multicast para configuración TaB y resolución 1080i .............. 88
Figura 4.23 Ancho de banda en Multicast para configuración SbS y resolución 720p ............... 88
Figura 4.24 Ancho de banda en Multicast para configuración SbS y resolución 1080i .............. 89
Índice de Tablas
Tabla 3.1 Factor Q ....................................................................................................................... 50
Tabla 4.1 Estándar DVB - Características Técnicas ...................................................................... 66
Tabla 4.2 Número de portadoras ................................................................................................ 74
Tabla 4.3 Intervalos de guarda .................................................................................................... 74
Tabla 4.4 Tasas de transmisión en DVB-T (en Mbps) .................................................................. 74
Tabla 4.5 Tasas de transmisión en DVB-T para los formatos de 3DTV ....................................... 75
Tabla 4.6 Anchos de banda referenciales requeridos para IPTV ................................................ 77
Tabla 4.7 Parámetros DVB-T utilizados para las pruebas de transmisión ................................... 82
Tabla 4.8 Valores para la correcta recepción .............................................................................. 83
Tabla 4.9 Resultados de las medidas de calidad de de la señal COFDM con la configuración TaB
..................................................................................................................................................... 83
Tabla 4.10 Resultados de las medidas de calidad de de la señal COFDM con la configuración
SbS ............................................................................................................................................... 84
Tabla 4.11 TS transmitidos y recibidos en la configuración TaB ................................................. 85
Tabla 4.12 TS transmitidos y recibidos en la configuración SbS con resolución 720p ................ 85
Tabla 4.13 TS transmitidos y recibidos en la configuración SbS con resolución 1080i y 1080p . 86
8
1 Introducción
El presente proyecto ha sido desarrollado en el Departamento de Teoría de la Señal y
Comunicaciones de la Escuela Técnica Superior de Ingeniería de la Universidad de Sevilla.
Este proyecto se enmarca dentro del estudio de tecnologías 3D para su aplicación en diversos
ámbitos.
1.1 CONTEXTO
Se ha producido recientemente un fuerte incremento en la producción de contenidos
audiovisuales 3D para cine y televisión, en forma de películas y grabación/retransmisión de
eventos en formato estéreo (pares de imágenes).
Cabe señalar que las películas 3D y las pruebas de televisión en 3D (3DTV) tienen una larga
historia. Sin embargo, la tecnología finalmente ha progresado lo suficiente en esta coyuntura,
por ejemplo, con el despliegue de la televisión digital (DTV) y la Televisión de Alta Definición
(HDTV). Por ello las marcas comerciales más importantes relacionadas con el sector
audiovisual, finalmente, se han introducido en el desarrollo de esta tecnología.
Comenzaremos por señalar que hay dos tipos de tecnología comercial para la visualización de
contenidos en 3D:
1) Las pantallas estereoscópicas1, que requieren gafas especiales para ver los
contenidos en 3D.
2) Las pantallas autoestereoscópicas, que muestran las imágenes en 3D de tal
manera que el usuario puede disfrutar de la experiencia de visualización sin
ningún tipo de accesorio especial.
1.2 OBJETIVO
El objeto de este documento es mostrar el proceso realizado para analizar y evaluar las
técnicas que existen actualmente para la transmisión de vídeo en 3D para diferentes
dispositivos de visionado.
En primer lugar se explicarán una serie de conceptos necesarios para entender los
fundamentos de la tecnología de vídeo en tres dimensiones. También se comentará la
evolución de los diferentes estándares de compresión de vídeo 3D, para posteriormente dar
una visión general del tratamiento digital de vídeo 3D y las partes en que se compone.
Profundizando en el objetivo del proyecto, se realizará un proceso de compresión del vídeo 3D
con diferentes códecs y formatos para poder analizarlos individualmente y mediante unos
criterios de calidad de imagen realizar una comparación entre ellos.
Posteriormente, se realizará la elección de los códecs y formatos más adecuados con respecto
a unos criterios de calidad de imagen definidos.
1 Estereoscopía: término asociado a la visualización de una imagen en tres dimensiones.
9
Para finalizar usaremos los códecs y formatos escogidos para realizar la transmisión de vídeo
3D mediante radiodifusión (TDT) y mediante streaming, analizando la calidad de la imagen en
diferentes dispositivos de visionado de vídeo 3D.
10
2 Conceptos básicos
En el siguiente capítulo se realiza un estudio del arte de las diferentes tecnologías involucradas
en un sistema de vídeo 3D. Primeramente para entender el concepto de visión 3D se introduce
al lector en el concepto de visión estereoscópica y se explica brevemente la historia de la
visión estereoscópica hasta la actualidad.
Una vez definidos los conceptos básicos, se mostrarán las diferentes tecnologías que existen
para la representación de contenidos estereoscópicos tanto sistemas que actualmente están
en fase de investigación como sistemas comerciales. Seguidamente se explicarán las diferentes
formas que existen en la actualidad de generar contenidos 3D explicando la problemática y
beneficios de cada uno.
Entre la generación y la representación, típicamente, se utilizan codificadores que
proporcionan la información del transmisor al receptor con el número mínimo de bits y sin que
el espectador pueda observar que se ha realizado dicho proceso. En este caso se explicarán las
diferentes soluciones existentes para la codificación de contenidos 3D.
2.1 VISIÓN 3D
Antes de profundizar en la explicación del desarrollo de las técnicas utilizadas para analizar los
diferentes formatos de codificación 3D, se hace necesario explicar en qué principios físicos se
basa la visión 3D.
2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D
El sistema visual humano es un sistema binocular, disponemos de dos ojos en los que, debido a
su separación horizontal, se reciben dos imágenes, de una misma escena, con puntos de vista
diferentes. Mediante estas dos “vistas” el cerebro crea una sensación espacial. A este tipo de
visión se le denomina visión estereoscópica y al proceso en si mismo estereopsis.
Figura 2.1 Creación de sensación de profundidad
En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos muy lejanos,
los ejes ópticos de nuestros ojos son paralelos. Cuando observamos un objeto cercano,
nuestros ojos giran para que los ejes ópticos estén alineados sobre él, es decir, convergen. A su
11
vez se produce la acomodación o enfoque para ver nítidamente el objeto. Este proceso
conjunto se denomina fusión. No todo el mundo tiene la misma capacidad de fusionar un par
de imágenes en una sola tridimensional. Alrededor de un 5% de la población tiene problemas
de fusión2. La agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis,
detalles situados en planos diferentes y a una distancia mínima. Hay una distancia límite a
partir de la cual no somos capaces de apreciar la separación de planos, y que varía de unas
personas a otras. Así, la distancia límite a la que dejamos de percibir la sensación
estereoscópica puede variar desde unos 60 metros hasta cientos de metros3.
Un factor que interviene directamente en esta capacidad es la separación interocular. A mayor
separación entre los ojos, mayor es la distancia a la que apreciamos el efecto de relieve.
Las cámaras convencionales son monoculares (un solo objetivo) con lo que al realizar la
reproducción de un contenido grabado con una de estas cámaras los ojos reciben la misma
imagen desde el mismo punto de vista a los dos ojos. En el caso de realizar la grabación con
una cámara estereoscópica se observaría como los objetos salen o se adentran sobre el marco
donde se representan, dotando a la reproducción de un mayor realismo. En estas dos
imágenes (Figura 2.2) se puede apreciar la disparidad, es decir, las diferencias en la dirección
horizontal entre los elementos de la imagen.
Figura 2.2 Imagen estereoscópica
El mecanismo sobre el que se produce la estereopsis es extremadamente preciso. Pese a esto,
como se ha comentado anteriormente, no todo el mundo es capaz de realizar el proceso de
fusión. Desordenes visuales en la niñez, aunque fueran temporales, pueden dar resultado a
“estereoceguera”, se calcula que afecta al 5% de la población.
La causa más común es el estrabismo (desalineación de los ojos), aunque en caso de ser
corregido a tiempo la visión estéreo puede desarrollarse normalmente.
También se hace necesario comentar que las capacidades de visualización estereoscópica
varían con la edad, siendo los jóvenes son más sensibles a esta, sobre todo cuando la
disparidad de la imagen es mayor.
A parte de los problemas físicos que puedan impedir una correcta visualización, también se
hace necesario que la reproducción se realice siguiendo una serie de requisitos, unos comunes
2 Howard, I.; Rogers, B. (1995). Binocular Vision and Stereopsis.
3 "Principles of Stereoscopy", Herbert McCay's
12
a contenidos 2D y otros exclusivos de contenidos estereoscópicos. Por la parte de 2D se hace
necesaria: una correcta definición, resolución y evitar el parpadeo de la imagen, esto último se
consigue asegurando una frecuencia de refresco mínima de 50Hz. Por la parte de 3D se hacen
necesarios los siguientes requisitos:
La sensación de mareo no debe existir.
El usuario no debe tener que realizar un esfuerzo para adaptarse a la sensación 3D,
sino que esta sensación sea natural.
La sensación 3D debe ser nítida y constante a lo largo de todas las figuras y
especialmente en los bordes de los objetos.
El sistema debe ser lo más independiente posible del ángulo de visión del usuario.
De cumplirse todos estos requisitos estaremos ante un sistema 3D que será de gran aceptación
por parte del público. Este tipo de visión debe ser algo natural y no ha de suponer ningún
esfuerzo o molestia adicional.
2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES
ESTEREOSCÓPICAS
Los Displays 3D que se utilizan para realizar la representación de los contenidos 3D pueden ser
divididos según la técnica usada para dirigir las vistas izquierda y derecha al ojo apropiado:
unos necesitan dispositivos ópticos cerca de los ojos, y por el contrario, otros tienen este
proceso integrado en el display mismo. Estos últimos, de visión libre (free-viewing), son
llamados autoestereoscópicos. El hecho de que el usuario no necesite incorporar ningún
elemento hace que este último tipo sea de alto interés.
2.2.1 AIDED-VIEWING
En los monitores que sí necesitan de elementos en el usuario (aided-viewing), dos perspectivas
diferentes son generadas (casi) simultáneamente. Los rayos de luz son generados en un plano
fijo de visión mediante diversos métodos de multiplexado que dirigen las imágenes al ojo
apropiado:
1) Multiplexado de colores (Anaglyph): Este sistema propone ubicar en un mismo cuadro las
dos imágenes de dos capas de color, superpuestas pero desplazadas ligeramente una
respecto a la otra para producir el efecto de profundidad. Cada imagen, para ser vista debe
ser filtrada por lentes especiales en cada ojo que separa y hace que los ojos tengan esa
diferencia de percepción de la imagen, estos filtros son óptimos al usar colores
complementarios en la imagen y en las gafas, la imagen presentada por ejemplo en rojo no
es vista por el ojo que tiene un filtro del mismo color, pero sí que ve la otra imagen en azul
o verde. Es muy común utilizar el par rojo/cian ya que esta combinación tiene
características simples de longitudes de onda paso bajo/paso alto.
13
Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores para obtener la
visualización en 3D.
2) Multiplexado mediante polarización: Este sistema propone algo similar al multiplexado de
colores, la diferencia se basa en usar la naturaleza de la luz polarizada para separar las
imágenes izquierda y derecha, dicha separación de las imágenes se basa en la polarización
de la luz a +45º para el ojo derecho y a –45º para el ojo izquierdo, se desea al igual que en
el sistema anterior diferenciar cada imagen, pero si esta imagen se muestra como luz
polarizada tiene componentes determinadas de campo eléctrico y magnético, las cuales
pueden ser filtradas en recepción por gafas especiales. Este sistema posee varias ventajas
como el ser pasivo, y mantener todo el espectro de colores de una imagen, haciendo que
sea una técnica muy sencilla.
14
Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización vertical
El funcionamiento básico consiste en la utilización de dos proyectores con filtros (uno
vertical y el otro horizontal). La proyección se ha de realizar sobre una pantalla que refleje
los rayos sin modificar su polarización. El usuario deberá incorporar unas gafas con filtros
polarizados para realizar la separación de las imágenes.
Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo
3) Multiplexado en tiempo: Este procedimiento propone que las imágenes correspondientes
a cada ojo se presenten en forma sucesiva una después de otra, en este sistema la
información L+R4 no está contenida en la misma imagen, hay un par de cuadros
independientes que se muestran en rápida sucesión. Es necesario separar estas imágenes
ante el espectador, y esto se logra con obturadores de alta velocidad alternados y
sincronizados, los cuales se montan en gafas especiales (shutter glasses), estos
obturadores son usualmente del tipo LCD (Liquid Crystal Display). El sistema visual humano
es capaz de mezclar imágenes estereoscópicas separadas por un retraso en el tiempo de
hasta 50ms. La velocidad a la cual se alternan las imágenes es conocida como velocidad de
renovación, y por ello se pueden producir imágenes con parpadeo, sin embargo se ha
mejorado y se han determinado ciertos valores donde se tiene buena calidad de
visualización (12 imágenes/seg. para el cine tradicional y 12,5-15 imágenes/seg. para la
televisión con exploración entrelazada). Este sistema funciona mucho mejor a velocidades
de renovación más elevadas con exploración progresiva.
4 Información estereoscópica de los canales visuales Izquierdo + Derecho, llamado I+D ó L+R.
15
Figura 2.6 Funcionamiento de los lentes "shutter"
La ventaja de este sistema radica en que se pueden utilizar monitores 2D para la
reproducción de los contenidos 3D siempre y cuando la frecuencia de refresco de pantalla
sea de al menos 100Hz y tengan un bajo tiempo de respuesta.
4) Multiplexado en espacio: En este sistema las dos vistas son creadas en lugares distintos y
redirigidas al ojo correcto mediante canales independientes. Este sistema es el utilizado
por los Head Mounted Displays (HMD)5. Con estos sistemas se puede llegar a tener una
percepción de hasta 140º en horizontal y 90º en vertical.
2.2.2 FREE-VIEWING
En este sistema, las dos imágenes (L+R) se presentan simultáneamente en tiras verticales
intercaladas. Un sistema lenticular de lentes cilíndricas situado en la pantalla enfoca ambas
imágenes en forma separada aproximadamente a una distancia interocular cercana a los
65mm.
Este sistema exige que el espectador no mueva su cabeza bruscamente, y restringe el perfil
multivisión de una pantalla de televisión, es decir un cambio de posición del espectador afecta
a la imagen que éste observa. Existe la sensación de que la escena gira con el movimiento del
observador, este fenómeno se conoce como Free viewpoint (punto de vista libre), y hoy en día
la tecnología ha desarrollado 8 de estos puntos. Cada Free Viewpoint requiere dos imágenes
(una por cada ojo) lo que hace que la pantalla tenga una resolución mucho mayor que la HDTV
(High Definition Television). Con esto se desarrolla en algo la técnica que permita que existan
múltiples espectadores, ya que no es necesario localizarlos en posiciones fijas. El principal
cambio es la utilización de micro-lentes que permiten controlar la difracción de los haces de
luz. Como no se necesitan gafas especiales, se lo conoce como sistema autoestereoscópico.
Algunos de los métodos más destacados son:
5 HMD: es un dispositivo de visualización similar a un casco, que permite reproducir imágenes creadas
por ordenador sobre un "display" muy cercano a los ojos o directamente sobre la retina de los ojos.
16
Electroholográficos: Estos displays, actualmente en fase de investigación, pueden
grabar y reproducir las propiedades de las ondas de luz (amplitud, longitud de onda y
fase). Este proceso, en caso de realizarse de forma perfecta, sería el ideal para
sistemas de visión libre 3D.
Volumétricos: Estos displays crean la sensación de inmersión proyectando la
información 3D dentro de un volumen. Estos sistemas típicamente presentan
problemas de resolución además de necesitar mucho ancho de banda. Este tipo de
displays se encuentran actualmente en fase de investigación.
Multiplexado por direccionamiento: Se aplican efectos ópticos como la difracción,
refracción, reflexión y oclusión para redirigir la luz emitida por los píxeles de distintas
vistas al ojo apropiado. Existen diversos tipos, pero los más destacados (debido a que
están más desarrollados tecnológicamente) son los basados en la refracción y en
oclusión:
1) Oclusión: Debido al efecto parallax (paralaje), partes de la imagen son ocultadas a
un ojo y visibles para el otro. Existen diversos tipos dependiendo del número de
hendiduras y de la posición de colocación de la barrera, que puede estar enfrente
o detrás de la pantalla. Las pantallas con barrera de parallax detrás del display ya
se pueden encontrar en el mercado en monitores tanto de PC como de portátiles.
Como se observa en la figura 2.7, la barrera de parallax es la encargada que
redirigir los haces de luz (y no la imagen en sí), al ojo adecuado. El problema que
tiene este tipo de displays es que la posición de visualización es muy estricta
siendo posible su uso sólo para una persona.
Figura 2.7 Tecnología de barrera de parallax
2) Refracción: Como en el caso anterior existen diversos tipos de display, siendo
Integral Imaging el más prometedor. En este tipo de displays la imagen se
compone de múltiples pequeñas imágenes 2D capturas con un amplio número de
grupos de pequeñas lentes convexas. Cada grupo de lentes captura la escena
desde un punto de vista distinto. De esta manera el usuario percibe diferentes
imágenes para diferentes puntos de vista. El problema radica en que los grupos
17
lentes deben de ser muy pequeños, debido a que cada píxel debe contener un
grupo de lentes. Por este motivo, el display debe de tener una resolución muy alta.
Como solución alternativa existen las pantallas lenticulares que usan lentes
cilíndricas que pueden ser consideradas como una versión unidimensional de las
pantallas Integral Imaging. Debido a la orientación vertical de las lentes, los rayos
de luz de cada imagen son emitidos en direcciones específicas en el plano
horizontal.
Figura 2.8 Funcionamiento monitor lenticular
En la figura anterior se muestra precisamente este funcionamiento. Se observa como el
usuario tendrá la posibilidad de colocarse en distintos lugares donde podrá percibir
correctamente la sensación 3D, al contrario que con la barrera de parallax donde sólo existe
un lugar donde es posible observar correctamente el contenido.
2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D
Existen diferentes tecnologías de creación de contenidos 3D y también existen diferentes
formas de visualización estereoscópica, esto hace que existan multitud de formatos con los
que codificar, almacenar y transmitir los contenidos. Cada formato de representación depende
de un formato de codificación concreto.
La adquisición es la primera etapa en el proceso de crear y transmitir señales de 3D; la cadena
a la que el vídeo estereoscópico debe someterse se describe en la figura 2.9.
Figura 2.9 Cadena de transmisión del vídeo estéreo
Los diferentes formatos para la codificación, transmisión y visualización hacen que existan
muchas formas de adquirir vídeo 3D y de procesarlo. De los puntos anteriores del capítulo se
desprende la conclusión de que para crear una imagen estereoscópica es necesario al menos
tener información de imágenes L+R, lo que supone que se necesitan dos lentes para captar
estas informaciones; sin embargo los nuevos métodos proponen algunas otras soluciones.
18
2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA)
Este método se presenta como la solución elemental al problema de la adquisición, debido a
que es la manera más próxima de emular el sistema de visión humano.
La idea principal es asemejar las lentes a la visión humana, es por ello que la separación
interlenticular debe ser de 65 mm. y tener un ángulo de convergencia igual al humano. Un
requerimiento elemental para el diseño de un sistema de adquisición estereoscópico es la
comprensión total del espacio real (espacio donde se encuentra el objeto) para reproducir el
espacio del vídeo estereoscópico.
La tecnología de cada lente para captar la imagen es igual a la tradicional de los sistemas de
vídeo monoscópico, es decir cámaras CCD. Cada lente trabaja bajo sus principios para capturar
la imagen independientemente.
Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo
2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA)
Para la implementación de estos sistemas se utilizan lentes monoculares tradicionales
dispuestos de tal forma que permitan obtener los detalles que proporcionen información de
profundidad para una escena. Estos sistemas, al ser complicados, quedan reservados para
aplicaciones muy específicas y determinadas, tales como espectáculos deportivos y culturales,
donde al espectador se le puede incluso brindar mayores posibilidades de interactividad. En
estos sistemas la producción de imágenes es más compleja y robusta que en otros casos, ya
que con muchas informaciones visuales los sistemas deben ser capaces de procesar gran flujo
de datos, tener altas tasas de compresión y obtener variables útiles para el desarrollo.
La etapa de captura se desarrolla mediante adquisición sincronizada en el tiempo la cual se
logra para todas las cámaras dispuestas, esta sincronización utiliza Genlock6. Estas imágenes
6 Genlock: Técnica común en vídeo donde una referencia de vídeo específica sirve para sincronizar todas
las fuentes de vídeo que se dispongan.
19
captadas por la cámara son almacenadas directamente sin compresión en el sistema de
almacenamiento, para un procesamiento offline (fuera del proceso).
El hecho de obtener mucha más información de imagen permite tener algunos resultados
como vídeo estéreo y vídeo con libre punto de vista, el cual se da cuando una escena puede
verse desde cualquier ángulo por la persona y esta percibirá una visión volumétrica de la
respectiva vista elegida.
2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF)
Este método es muy útil en algunos casos, dado que la información de profundidad permitiría
generar el vídeo estereoscópico. Se propone un sistema en el cual se capte el plano 2D con un
lente normal y por otro lado se capte la información de profundidad de cada píxel7 de este
plano, eso se hace a través de las conocidas Z-Cam o también llamadas TOF (Time of Flight),
que permiten generar información para dar profundidad a cada píxel.
La Z-Cam genera pulsos de luz infrarroja con diodos láser que son reflejados por los objetos
que la cámara capta, al capturar esta reflexión el dispositivo calcula para cada píxel la distancia
exacta a la que se encuentra y genera un mapa de profundidad, el cual no es más que el vídeo
original en escala de grises, en donde el blanco representa los píxeles más cercanos y el negro
los píxeles con mayor componente de profundidad Z.
2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D)
Esta técnica aunque resulte la que más se acopla a los sistemas que están en vigencia, requiere
un procesamiento digital de la señal muy rigurosa y compleja.
Al no contar con la información real de profundidad, el emular o crear esta información
disminuye calidad y precisión. A pesar de todo ello, este es el método más usado en la
actualidad, dado que permite una compatibilidad total con los sistemas existentes, que lo
único que deben incorporar es la etapa de conversión a 3D.
Esta conversión se puede hacer a dos niveles, en la producción y en la recepción; el último
caso es lo que actualmente se tiene como 3DTV, la cual toma el cuadro en 2D, lo convierte a
3D y lo presenta en anáglifo polarizado o multiplexado en el tiempo, sin embargo cuando este
proceso se realiza en la producción se puede tener mayor calidad.
2.4 FORMATOS DE VÍDEO PARA 3D
Los formatos establecidos para el vídeo 3D han ido evolucionando desde los más simples hasta
aquellos con procesos exclusivos y complejos. Un formato se puede definir como la descripción
de la información que se adquiera y se procesa.
2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA)
Este formato de vídeo 3D está considerado como uno de los más antiguos y con mayores
restricciones por su baja calidad; es notorio que este formato tiene completa compatibilidad
7 Pixel: La menor unidad homogénea en parte de una imagen digital.
20
ya que este se reproduce en las pantallas convencionales y el procesamiento para generar 3D -
OCA es sencillo. El formato OCA (Anáglifo Cromático Optimizado) se le puede considerar como
un sistema admisible ya que ha sido optimizado para no perder calidad en el color ni sufrir
grandes alteraciones en el vídeo original, es de fácil manipulación y de bajo costo.
2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV)
En este formato se tratan y procesan las señales para 3D que puedan existir de manera
independiente, es así que si se tienen señales izquierda y derecha, cada una de ellas se
someterá a su estándar de compresión, a su codificación y será incluso transmitida
considerando que es una señal 2D, esto supone efectivamente el gasto del doble de recursos
para una información 3D, por lo tanto el sistema se limita a la existencia de dos imágenes.
Dentro de este formato podemos encontrar la técnica de Dual-Stream y de Simulcast. En
ambas técnicas las señales se adquieren independientemente, tienen su línea de
procesamiento independiente dentro del sistema y son transmitidas bien sincronizadamente
multiplexadas o de manera simultánea, ocupando el doble de recursos técnicos. En la
recepción se utilizan dos plataformas independientes para cada señal.
Este formato representa la solución natural a la producción y transmisión de señales estéreo
de vídeo, el formato es conveniente y aplicable para 2 vistas, izquierda y derecha. A cada una
de las vistas se le aplicarán codificadores que se usan actualmente. La desventaja principal de
este formato es que no se utiliza la relación y la dependencia entre las vistas, que para otros
formatos representa un elemento vital para reducir los recursos técnicos utilizados. Por otro
lado la ventaja existente es la fácil recuperación de una de las vistas para la compatibilidad 2D.
Dado que no se utilizan técnicas avanzadas para la codificación de este vídeo se conoce a este
como CSV, o vídeo estéreo convencional.
2.4.2.1 Concepto de Dual Stream
En este caso se generan dos flujos de las señales y posteriormente se someten a una etapa de
multiplexación donde se estructura una secuencia de transmisión para que así se genere el par
de cuadros de vídeo de manera ordenada, este formato es compatible con 2D debido a que si
solo ese desea un cuadro, es fácil descartar el otro y diferenciar cuál es el que se desea ver.
Inicialmente se contempla el Dual Streaming como el enviar los mismos flujos para dos fines
diferentes, pero si se trata de señales estereoscópicas, se aprovecha esta condición para enviar
en dos flujos ligeramente distintos y que estos sean procesados de manera independiente.
Este formato es bastante aplicable con técnicas de compresión y transmisión actuales, ya que
se maneja cada señal de manera independiente.
2.4.2.2 Transmisión Simultánea (Simulcast)
Aunque el procesar las señales independientemente es lo más simple, es recomendable
simplificar el sistema, el esquema de transmisión simultánea plantea la existencia de dos
señales individuales L y R que serán transmitidas en diferentes canales, es decir como dos
señales diferentes; sin duda los recursos necesarios son elevados pero la infraestructura para
vídeo monoscópico no se altera, solo se aumenta.
21
2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)
El formato que se expone a continuación, ha tenido una evolución significativa, y comenzó por
la idea más sencilla, que fue enviar los cuadros izquierdo y derecho por separado de manera
alternada es decir como una transmisión “doble” de las escenas. Después siguió evolucionando
hasta obtener mayor eficiencia ubicando a las dos imágenes en el mismo campo. Dado que la
base de este formato es el cuadro HD, el estándar HDMI propuso la idea de implementarlo y
definió formatos bases y formatos alternativos, dejando muchas opciones para realizar la
producción de imágenes 3D. Además se propone una efectiva solución a la compatibilidad, el
fundamento básico dice que estos formatos se basan en la existencia de 2 vistas (izquierda y
derecha) que aprovechando el número de líneas del cuadro, se ubican dentro del mismo
plano. El hecho de que se ubiquen dos imágenes en el lugar que ocuparía una supone una
pérdida de calidad, sin embargo la evolución de las técnicas de compresión ha permitido que
se mantenga la buena calidad y se comprima con estándares avanzados. Entre los formatos
avanzados HDMI, la versión 1.4a establece que se puede sustituir la información de uno de los
cuadros por información de profundidad, haciendo que la adquisición de esta información
pueda ser aprovechada.
Este formato se presenta como una solución sencilla a la compatibilidad, ya que se aprovecha
las cualidades del canal de alta definición para ubicar en él, el máximo de información posible.
HDMI 1.4 establece las normas para la comunicación de imágenes HD a través de la interfaz
con el mismo nombre, y en su versión ampliada 1.4a establece los formatos para ubicar
imágenes L+R en el cuadro HD.
Para el estándar DVB-T se puede considerar que un canal HDTV ocupa la mitad del ancho de
banda de un múltiplex, y por lo tanto el canal de 3DTV ocuparía los mismos recursos. El hecho
de introducir dos imágenes en un cuadro HD implica la pérdida de resolución, lo cual es una
desventaja; por otro lado la gran ventaja de este formato es la elevada compatibilidad que se
obtiene. De igual forma se definen los tipos de barrido de línea para cada estructura 3D, ya sea
progresivo o entrelazado, manteniendo los principios de cada uno de estos métodos. Las
estructuras 3D en HDMI 1.4a deberían procurar transmitir dos señales de vídeo en completa
resolución 1080p, una para cada ojo, es así que se establecen nuevas dimensiones del cuadro
HD para 3D, todas ellas se basan en imágenes L+R, sin embargo también es válido para las
estructuras actuales de 1920x1080p, claro que reduciendo su resolución. Estas nuevas
dimensiones del cuadro HD establecen los siguientes conceptos:
Full HD 2D (FHD2D) / Half HD 3D (HHD3D): Es la de menor calidad para reproducción
3D, mantiene las dimensiones convencionales del FHD2D es decir 1920x1080p.
Full HD 3D (FHD3D): Es la que conserva la calidad de cada cuadro, por lo tanto las
dimensiones del cuadro, aumentan de acuerdo a la configuración.
A continuación se presentan todas las configuraciones posibles y para cada dimensión del
cuadro HD:
22
2.4.3.1 Formato de Empaquetamiento de Cuadro
Para este formato se ubica el cuadro izquierdo en la parte superior, posteriormente un espacio
en blanco y luego el cuadro derecho, se establece una nueva dimensión del cuadro HD (ver
figura 2.11), este espacio en blanco viene dado por el pulso de borrado que el cuadro tiene
originalmente y que es de 45 líneas. Es muy similar, por la disposición de los cuadros, al
formato Top and Bottom, pero se diferencia por la estructura detallada del cuadro.
Figura 2.11 Empaquetamiento de cuadro para formato progresivo
2.4.3.2 Configuración Side by Side Half (SbS)
En esta configuración se propone ubicar los cuadros izquierdo y derecho uno a continuación de
otro horizontalmente (ver figura 2.12). En este caso el SbS del tipo Half (HHD3D) los cuadros
originales HD reducen su resolución a la mitad en el eje horizontal, para al final obtener un
cuadro HD de dimensiones normales, en este caso el cuadro derecho se ubica a la derecha y el
izquierdo en la izquierda. La señalización para detectar este tipo de cuadros se realiza
mediante el estándar HDMI 1.4a.
Figura 2.12 Side by Side (SbS)
2.4.3.3 Configuración Top and Bottom (TaB)
En este caso las imágenes izquierda y derecha son submuestreadas a la mitad de su resolución
en el eje vertical y posteriormente ubicadas como muestra la figura 2.13.
23
Figura 2.13 Top and Bottom (TaB)
2.4.3.4 Configuración quincunx matrix (Tablero de ajedrez)
Este formato forma parte del grupo de formatos extendidos de HDMI 1.4a, es decir no son
muy utilizados, pero también proponen una solución para la disposición de la información
estereoscópica, en este caso se propone dividir a la imagen en todos sus píxeles e ir alternando
en forma de tablero de ajedrez entre el píxel del cuadro derecho y el píxel del cuadro izquierdo
(ver figura 2.14), en este caso cada imagen también se submuestrea a la mitad de su
resolución para poder ocupar un cuadro HD de dimensiones convencionales.
Figura 2.14 Configuración Tablero de ajedrez
En este formato se mantiene el número de líneas originales, es poco usado para la
estructuración de las imágenes antes de la transmisión. Por ello no se requiere un estudio
minucioso; existen dos posibilidades para estos cuadros, cualquiera de las vistas, izquierda o
derecha, puede ocupar el primer píxel del cuadro HD.
2.4.3.5 Configuración campos alternados
Este es uno más de los formatos extendidos de 3d_Structure para HDMI, es una configuración
que se basa en el formato entrelazado, dado que intercala en la disposición del cuadro HD (ver
Figura 2.15) los campos pares e impares para información estereoscópica izquierda y derecha.
Para este caso se mantiene el número de píxeles por línea, el número de líneas efectivas se
duplica al igual que la frecuencia.
24
Figura 2.15 Configuración de Campos alternados
2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D)
La herramienta que representa la información de la profundidad es el mapa de profundidad. La
normativa ISO/IEC 23002-3 (MPEG-C Parte 3) define a este como un formato válido para los
sistemas de 3D y establece los modos de producción y compresión para estas imágenes. Para
obtener un mapa de profundidad existen varias técnicas; a continuación se describen los
procesos en el lado transmisor de este tipo de señales.
Existen 3 formas de obtener las señales necesarias para este formato, de todas estas se
desprende el mapa de profundidad que luego será codificado independientemente y se
estructura junto con el vídeo en el conjunto de bits a ser transmitido.
Figura 2.16 Imagen con su mapa de profundidad asociado
2.4.4.1 El mapa de profundidad
El mapa de profundidad es una representación visual de las escenas de vídeo, la cual contiene
valores discretos que representan la profundidad de cada píxel del cuadro original. Las
imágenes son representadas por cuadros en escalas de grises donde cada gris representa una
distancia Z, y se ha establecido que para los objetos cercanos se asigne el color blanco y para el
25
más alejado el color negro. Para el vídeo, la profundidad se representa por una señal de vídeo
monocromática de 8 bits, con estos 255 valores se obtienen buena calidad para la posterior
interpretación de la profundidad de una escena. El mapa de profundidad consta simplemente
de una matriz que contienen N valores asociados a los píxeles individuales del flujo de vídeo
regular. Esta señal puede ser procesada con técnicas específicas para señales de luminancia8, o
más modernamente con las técnicas de codificación que el vídeo de la televisión digital utiliza.
Esta al ser una señal auxiliar de vídeo requiere ser señalizada, para lo cual se introduce un byte
que determina que la señal es de este tipo.
2.4.4.2 Generación del mapa de profundidad a partir de 2D
La generación de este tipo de información, forma parte del formato de conversión 2D a 3D, es
decir aquí se genera un mapa de profundidad utilizando algún algoritmo que estime el valor de
la componente Z de cada píxel. Algunas técnicas crean un mapa de profundidad a través de la
estimación de la segunda vista, y posteriormente emplean la técnica como si se hubiera
obtenido la imagen desde dos cámaras. Existen una gran variedad de propuestas para obtener
este mapa de profundidad, y todos estiman la componente Z de diferente manera, incluso
existen técnicas para realizar transformación en tiempo real.
Para la generación de este mapa, algunas técnicas parten del análisis del vector del
movimiento el cual se obtiene fácilmente a través del H.264 (MPEG-4), y con este vector
construyen el mapa de profundidad.
2.4.4.3 Generación del mapa de profundidad a través de Cámara infrarroja
Las Zcam funcionan a partir de la luz infrarroja que detecta la posición de los objetos, por lo
que también se denominan cámaras infrarrojas. Estas cámaras obtienen dos señales de vídeo,
el plano 2D y el mapa de profundidad, este tipo de cámaras generan pulsos infrarrojos que se
reflejan por los objetos y dependiendo de dicha reflexión se obtiene el valor de profundidad de
cada objeto de la imagen. Estas cámaras constan de un CCD ultra rápido y una fuente de luz
infrarroja. Los sistemas de creación de mapa de profundidad por rayos infrarrojos procuran
generar imágenes de alta calidad y no solo es la adquisición sino el proceso para generar el
mapa en sí. Después de la adquisición, es clave en el proceso corregir y poner a punto factores
como brillo, textura y segmentación de la imagen. En primera instancia la cámara emite y
recibe pulsos de luz infrarroja, los cuales viajan junto con la luz que representa el plano, es por
ello que cada información debe ir a su correspondiente módulo de procesamiento.
2.4.4.4 Generación del mapa de profundidad a través de Cámara Estéreo
Si bien es cierto la técnica más adecuada para generar un mapa de profundidad es a través de
un transductor diseñado para ello; se han desarrollado diversos algoritmos que parten de que
la mayoría de sistemas de 3D trabajan con cámaras estéreo, por la facilidad y porque las
cámaras con dos lentes son más populares que las cámaras infrarrojas para profundidad. Por
lo tanto la atención ya no está en los lentes ni en el proceso de adquisición, sino mas bien en la
8 La luminancia “Y” es la componente del vídeo que tiene la información de luminosidad (luz o brillo) de
la imagen.
26
línea base del procesamiento de las señales izquierda y derecha para generar la información
V+D.
En esta técnica se identifican dos etapas para la generación del mapa, la primera consiste
básicamente en preparar a la imagen para que se pueda extraer el mapa a partir de la
disparidad. Los 5 procesos que la primera etapa comprende, procuran corregir los errores de
los píxeles de la imagen para que posteriormente en la segunda etapa, la detección de la
disparidad sea correcta.
2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC)
Este formato es robusto debido a que posee su propio estándar de compresión y codificación,
el Multi-view Video Coding es una extensión que se hizo para H.264 (MPEG-4), y en este ya se
contempla la posibilidad de que desde la adquisición se obtengan no sólo dos, sino múltiples
vistas de una escena, y que estas sean comprimidas y transmitidas como un perfil multivista
Con la aparición de esta extensión a la norma, no solo se fortalece el concepto del 3D basado
en la existencia de dos imágenes como en el sistema visual, sino también surge el concepto de
FVV (Free View-point Video), en el cual se adquieren n vistas, y se presentan al espectador n
vistas de las escenas. Para el caso particular en el que n=2 vistas es el que se usa en la
actualidad en los sistemas Blu-Ray 3D.
2.4.6 FORMATO MVD (MVC+D)
La búsqueda de cada vez más calidad ha llevado a extender formatos ya existentes, es así que
al MVC, a pesar de que en su concepción requiere n vistas lo que lo haría de gran calidad, se le
añade una información importante que ya ha sido estudiada, la profundidad. Este formato es
considerado dentro de la categoría de los formatos avanzados para producción de vídeo 3D y
se establece la existencia de n vistas, cada una de ellas con su respectivo mapa de
profundidad. Al igual que para MVC, la particularización de este formato en n=2 significa un
estéreo de alta calidad.
Figura 2.17 Formato MVC + Profundidad
La gran ventaja de este formato es que al existir múltiples vistas y reforzadas con la
información de profundidad, la presentación del vídeo al espectador tiene más calidad; incluso
27
el espectador podrá observar cada una de las n vistas de manera independiente en 3D. Debido
a que cada una tiene su mapa de profundidad. Además el procesamiento digital de la señal se
simplifica al evitar el cálculo de algunos parámetros de profundidad.
2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV)
Este al igual que MVD, está dentro de los llamados formatos avanzados para vídeo 3D. Para
este formato se generan más informaciones de profundidad para la imagen que se adquiera; al
igual que el anterior es un formato multivista por lo que puede existir n informaciones visuales
por señal de vídeo. Como es de imaginarse la cantidad de datos que se obtienen es bastante
grande por lo cual la compresión que se realice es fundamental y determinante.
El método nace con LDI (Layered Depth Image) y se expande hasta aplicarlo no sólo a
imágenes sino en vídeo también. La información que se asocia por cada vista de la imagen es:
la imagen de vídeo monoscópica, el mapa de profundidad asociado, una capa para representar
el fondo del vídeo (se obtiene de la oclusión del vídeo original), y una capa de fondo para la
profundidad.
Figura 2.18 Formato LDV
De todas las técnicas de reconstrucción de imágenes 3D, LDV es una de las más eficientes en el
momento de sintetizar las vistas en escenas 3D complejas.
2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES)
En este formato se establece que se pueden generar 2 o más vistas (n≥2) acompañadas de
información de profundidad y capas de oclusión; la información es similar a LDV sin embargo la
diferencia es que LDV transmite una vista completa y crea el resto, en este caso cada una de
las cámaras capta el vídeo de color con su respectiva extensión de la información.
En general todos los formatos, en los cuales se utilice a la profundidad como información para
crear el 3D dan flexibilidad para que se pueda manejar de mejor forma toda la información,
por lo tanto se vuelve un poco más sencillo el manejar conceptos como movilidad, efectos de
profundidad, etc.
28
Este formato extiende al estéreo convencional ya que genera una serie de datos extras a las
originales izquierda y derecha de un sistema estereoscópico tradicional, al extender el estéreo
tiene como ventaja, dejar la posibilidad de que los formatos y esquemas anteriores puedan
adaptarse. Dentro de las informaciones adicionales se manejan señales de profundidad
adicionales y capas de oclusión, lo cual brinda una funcionalidad mayor por ejemplo se crean
facilidades para la post producción, además se puede sintetizar varias vistas así como adaptar
la línea base con el fin de presentar en una pantalla de TV o ser proyectado en el cine. DES
(Depth Enhanced Video) establece que existan 2 flujos de vídeo, con un mapa de profundidad
y dos capas de oclusión cada uno. Se dice que este es un formato genérico porque el sistema
genérico de adquisición brinda todas las señales necesarias de manera precisa y sencilla.
2.4.9 RESUMEN DE FORMATOS
MVD, LDV y DES fueron presentados como formatos avanzados para esquemas multivista y se
mencionó como ventaja sobresaliente la viabilidad para que se usen en recepción pantallas
autoestereoscópicas al usuario.
En definitiva no importa cuál formato se utilice para transmitir la información 3D, el desarrollo
de la tecnología de displays permite convertir esa información a dos o más cuadros que se
pueden visualizar por cualquier método que el fabricante elija. Lo más importante es
encontrar un formato óptimo.
2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO
ESTEREOSCÓPICO
Existen diversos organismos de estandarización que están trabajando en un modelo estándar
de codificación. Los tres más importantes que han colaborado en el desarrollo de estándares
sobre tecnologías 3D son la “Internacional Organization for Standardization (ISO)”, la
“International Electrotechnical Commission (IEC)” y la “International Telecommunication Union
(ITU)”. ITU conjuntamente con MPEG (grupo de expertos en vídeo del ISO/IEC), trabajan en la
estandarización del H.264 (MPEG-4 parte 10 de ISO/IEC), este estándar conjunto trata aspectos
de codificación multi-vista: MVC (“Multi-View Coding”). Mediante este tipo de codificación se
pretende conseguir la compresión de diferentes vistas para poder realizar transmisiones de
Vídeo 3D con tasas de compresión adecuadas.
MVC al estar amparado por los tres grandes cuerpos de estandarización (ITU, ISO e IEC) se
puede estimar que será el formato más extendido en un futuro y evitará multiplicidad de
formatos de codificación multi-vista.
Por su parte MPEG también trabaja en otros aspectos, por ejemplo, la parte 16 del MPEG-4,
denominada AFX (“Animation Framework extensión”), define una colección de herramientas
que permiten producir contenidos sintéticos animados en tres dimensiones.
También se está trabajando en el MPEG-C, que define los algoritmos avanzados de codificación
de vídeos. Entre las partes del estándar, la parte 3 define la manera de añadir uno o más flujos
de datos auxiliares (como por ejemplo mapas de profundidad) que están asociados con los
29
píxeles del flujo de vídeo principal. De este modo, se puede utilizar este estándar para codificar
de forma universal la información estereoscópica para aplicaciones de 3D.
A continuación se explicarán algunas de las formas más habituales en las que se codifican este
tipo de contenidos.
2.5.1 CODIFICACIÓN ESTEREOSCÓPICA
La recomendación ITU-T H.264, o más conocida como MPEG-4, tiene grandes ventajas y buen
desempeño; si bien es cierto H.264 tiene varias extensiones aplicables a 3D, el MPEG-4
convencional también se puede aplicar a los formatos de vídeo 3D, porque el vídeo que se
transmite se le trata como vídeo 2D de características especiales.
MPEG-4 tiene una gran versatilidad y calidad de codificación, si bien es cierto MPEG-2 llegó a
desarrollar una extensión para perfil multivisión, en el cual se contempla el caso de múltiples
vistas y de cómo explotar la relación entre ellas para codificar y comprimir, no llegó a ser el
estándar de vanguardia y llegó a su máximo desarrollo en dicha extensión.
Las ventajas de MPEG-4 hacen que este sirva de base para desarrollar modelos más eficientes
ante la gran cantidad de información que los formatos de 3DTV requieren.
A continuación se realiza una descripción de MPEG-4 y de cómo este se adapta a los diferentes
formatos, dependiendo la clase y cantidad de información necesarias.
2.5.1.1 Características generales del estándar H.264, MPEG-4 Parte 10
El procedimiento seguido se basa principalmente en aplicar JPEG sobre las imágenes de
referencia y a partir de esta, y mediante técnicas de compensación de movimiento (aplicadas
sobre macrobloques 8x8, 16x16 etc.), aprovechar la redundancia temporal entre imágenes
consecutivas pertenecientes a la misma escena. Únicamente se codifican las diferencias. Estas
diferencias se describen mediante los vectores de movimiento, que especifican, si se ha
movido un macrobloque, cual es la nueva posición dentro de la imagen del macrobloque y de
esta manera poder hacer una predicción de la imagen. Sobre esta imagen diferencia también
se aplica JPEG.
El estándar define cinco tipos de imágenes en la codificación:
Imágenes Intra (I): Sólo contienen macrobloques intra. Son imágenes codificadas
teniendo en cuenta únicamente la propia imagen (son imágenes de referencia). Las
imágenes I suelen ser codificadas de manera similar a la codificación JPEG. Las
imágenes I son las que más ocupan y se utilizan como puntos de acceso aleatorio ya
que sólo dependen de sí mismas en la descodificación.
Imágenes Predicted (P): Contienen macrobloques P y/o macrobloques I. Este tipo
corresponde a las imágenes predichas que hacen referencia a una imagen de tipo I o P
anteriores en tiempo. Ocupan entre un 30% y un 50% menos que una imagen I.
30
Imágenes Bi-Predicted (B): Contienen macrobloques B y/o macrobloques I. Son
imágenes predichas con referencia a la imagen I anterior y a la P posterior. Es
necesario que el descodificador tenga las dos referencias, anterior y posterior, para
poder descodificarlas correctamente. Suelen ser aproximadamente un 50% más
pequeñas que las imágenes P.
Imágenes Switching Predicted (SP): Contienen macrobloques P y/o I. Facilita el cambio
entre secuencias codificadas. Sólo se utilizan en versiones extendidas del estándar.
Imágenes Switching Intra (SI): Son iguales que las SP pero contienen macrobloques SI,
que son un tipo especial de macrobloques intra. Sólo se utilizan en versiones
extendidas del estándar. Cuando una imagen es codificada esta puede ser almacenada
en un contenedor de bytes o directamente transmitida. La transmisión seguirá un
patrón fijo que consistirá en el envío de una imagen I seguida de imágenes P y/o
imágenes B.
En la figura 2.19 podemos ver un posible patrón de transmisión.
Figura 2.19 Estructura típica de transmisión de H.264
Es importante tener en cuenta que el descodificador necesitará una imagen de referencia
(imagen I) para empezar a descodificar, debido a que las demás imágenes (hasta la siguiente
imagen I) hacen referencia a ella.
2.5.1.2 H.264 AVC en OCA (Optimized Chromatic Anagliph)
En este caso la naturaleza de la señal de vídeo es similar a las señales convencionales de vídeo
2D, por lo tanto el estándar es fácilmente aplicable sin ninguna restricción, tal como lo
muestra la figura 2.20.
Figura 2.20 Codificación para OCA
Cabe mencionar que se debe procurar mantener la calidad, por lo que trabajar en HD sería una
idea conveniente en este formato. Para OCA, no existen señales auxiliares ni información extra
para el vídeo 3D.
31
2.5.1.3 H.264 AVC para CSV (Conventional Video Stereo)
Esta es la aplicación natural a la parte estéreo, considerando que aquí las señales de vídeo son
monoscópicas e independientes. Dentro de CSV, podemos considerar 2 casos como los
formatos antes estudiados, el caso del Dual-Streaming y del Simulcast; con esto H.264 trabaja
normalmente sobre cada uno bajo la estructura expuesta en las figuras 2.21 y 2.22
respectivamente:
Figura 2.21 Aplicación de H.264 en Dual-Streaming
Figura 2.22 Aplicación de H.264 en Simulcast
En los dos casos la codificación es totalmente independiente, por lo que el codificador trabaja
con señales completamente convencionales. Las desventajas que se presentan son:
Dual-Streaming: se debe tener en consideración que la estructura de transmisión
soporte el video-out proveniente de la codificación de dos señales.
Simulcast: la estructura de transmisión si soporta la salida del codificador, se debe
considerar que el uso del canal de transmisión en este esquema de transmisión se
duplica.
Al ser informaciones completamente independientes estos esquemas se pueden ajustar a los
formatos V+D, utilizando en lugar del vídeo derecho a la información de profundidad.
32
2.5.1.4 H.264 AVC para CFC+ (Conventional HD Frame Compatible +)
CFC+ es el formato en el cual la información tiene una naturaleza propia para 3DTV, por lo cual
la cantidad de información ya crece; como se estudió en el formato, aquí se manejan al menos
las dimensiones del cuadro HD y para casos de mayor calidad, dimensiones superiores. Dado
que MPEG-4 si establece algunos niveles y perfiles en los cuales encajen estos vídeos, la
codificación si sería aplicable.
Dado que en este formato se manejan los cuadros L+R bajo algún empaquetamiento, es
necesario utilizar la extensión de H.264 que define un SEI (Supplemental enhancement
information), es decir un señalizador de información adicional. En este SEI se indica bajo que
formato se empaqueta la información, y que tipo de información existe. Para mejorar la
calidad en la codificación a esta información de vídeo 3D se le aplica el SVC (Scalable Video
Coding), el cual no es más que un anexo del H.264 para señales de mayor calidad y por
supuesto compatible con los parámetros de codificación antes estudiados.
En la figura 2.23 se ilustra como actuaría el codificador para casos de empaquetamiento en un
cuadro HD. Cabe señalar que el tipo de empaquetamiento es totalmente independiente, ya
que mientras se ocupe las dimensiones normadas para los cuadros HD, el vídeo estereoscópico
se codifica como señales normales, aún cuando estas lleven información estereoscópica.
Figura 2.23 Aplicación de H.264 en CFC+
Debido al uso del cuadro HD, es necesario utilizar la señalización correspondiente, dicha
señalización se encuentra en la norma HDMI 1.4a en la sección correspondiente a 3D.
2.5.2 CODIFICACIÓN PARA EL FORMATO V+D
La idea inicial de establecer el mapa de profundidad surge del proyecto ATTEST9, y se basa en
que una señal monocromática ahorraría muchos recursos de transmisión y facilidad en
codificación. Existen algunas técnicas que resulta una solución viable en este formato,
9 Advanced Three-dimensional Television System Technologies (ATTEST), proyecto para la investigación
de un sistema de difusión eficiente de televisión 3D.
33
procurando siempre el uso eficiente de los recursos y evitar en lo posible que se demanden
tasas de bits excesivamente altas.
El desarrollo de estas técnicas ha permitido que este formato sea eficiente e incluso sea
aplicable a la televisión móvil 3D. Es posible también aplicar la extensión MVC de H.264
tomando en cuenta que una de las vistas puede ser el mapa de profundidad.
2.5.2.1 MPEG-C parte 3
Este estándar conocido también como el ISO/IEC 23002-3, establece el procesamiento
separado e independiente de las señales de vídeo y de la señal de profundidad, tomando en
cuenta que codificar una señal de profundidad monocromática requiere menos tasa de bits y
que en recepción se debe contar con dos decodificadores para separar la reconstrucción de
ambas señales.
Cabe señalar que el estándar no establece técnicas de compresión o transmisión, sólo
establece la metodología que puede ser aplicada para nuestro estudio con técnicas
H.264/AVC.
Se considera que el codificador para la profundidad tendrá como salida una tasa de bits de
entre el 5 y 10% de la tasa del vídeo 2D, siendo así la tasa total de bits un 110% en V+D usando
codificación para cada señal, un valor que puede resultar cuestionable para servicios donde el
uso del canal sea realmente limitado.
La cadena de transmisión para este formato se representa en la figura 2.24.
Figura 2.24 Cadena de Transmisión para MPEG-C parte 3
El esquema de la figura 2.24 muestra la codificación independiente de las 2 señales, de lo cual
resultarán dos flujos de bits; para la transmisión de dichos flujos, estos deben ser
multiplexados cuadro a cuadro generando un único transport-stream, el cual puede
34
eventualmente contener parámetros adicionales del mapa de profundidad como información
auxiliar.
2.5.2.2 H.264 - Imágenes auxiliares
H.264 sostiene la posibilidad de codificar señales auxiliares de vídeo, teniendo las mismas
características de macro-bloques, de semántica y sintaxis en la codificación.
Se pueden adicionar señales de vídeo redundantes o señales no especificadas en la norma
H.264, de esto se vale el 3D para poder transmitir sobre MPEG-4 la señal auxiliar del mapa de
profundidad (ver figura 2.25). Esta señal debe estar debidamente señalizada según lo
establece el estándar, a este tipo de señales el estándar, las denominadas como “Auxiliary
Coded Picture”, y se definen como imágenes que suplementan a la señal primaria,
normalmente esta señal se usa como redundancia y el estándar restringe a que esta sea
monocromática.
Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares
Esta solución permite aprovechar al máximo las ventajas de H.264 y además se brinda un gran
nivel de compatibilidad con los sistemas anteriores, además de un uso eficiente en la
transmisión.
2.5.3 CODIFICACIÓN PARA EL FORMATO MVC
Esta enmienda a H.264/AVC crea la posibilidad de explotar al máximo la dependencia entre las
vistas de una señal de vídeo estereoscópico, haciendo uso de una predicción tomando en
cuenta los n cuadros presentes. Para este formato se pueden especificar dos casos, el primero
en el cual se generaliza la predicción para n vistas, y el segundo que se ha mencionado como
estéreo de alto desempeño si n=2.
Según H.264 se añade un nuevo SEI para indicar el uso de la predicción y codificación
multivista. Un codificador MVC consiste básicamente en N codificadores simples en paralelo,
cada uno de ellos utiliza estructuras de predicción temporal, donde una secuencia de imágenes
35
sucesivas es codificada como Intra (I), Predictiva (P) o Bi-predictiva (B). Para mejorar aún más
la eficiencia de la codificación, se tiende a utilizar Imágenes B jerárquicas, donde la jerarquía
de una imagen B es creada por la sucesión de imágenes B que resultan referencias para otras
imágenes B.
En MVC los conceptos de predicción para una imagen se extienden a tal punto que una imagen
que está en el proceso de codificación, puede tener tanto referencias temporales como
referencias intervista para la predicción. En la figura 2.26 se explica esta predicción MVC
considerando n=5 y un GOP de tamaño 8.
Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP)10
Para la cámara 1, el procedimiento de predicción es idéntico al caso de una sola vista,
manteniendo así una compatibilidad con sistemas anteriores, pero para el resto de vistas se
hace uso de la referencia intervista (flechas rojas) para la predicción.
Con el fin de mejorar la eficiencia existen varias estructuras de predicción desarrolladas, dos
de las más importantes son IPP (inter-view prediction at key picture) y HBP (Hierarchical B
Pictures), IPP funciona bajo lo expuesto en la figura 2.26.
HBP explota aún más la relación inter-vista, no solo utilizando las vistas n+1 para la predicción
sino también las n+2. La figura 2.27 muestra el proceso de predicción de las diferentes
imágenes para un GOP = 8 y n=8 vistas.
10
Fuente: “3D Video Formats and Coding Methods”; Karsten Müller, Philipp Merkle, Gerhard Tech, and Thomas Wiegand; HHI; 2006 Berlín Alemania.
36
Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP)
11
En la figura anterior, la S indica la cámara, mientras que la T indica el tiempo. Como en
estándares anteriores, las tres maneras de codificar una imagen son: intracodificado (I cuadro),
predecible posterior (P cuadro) y predecible bi-direccional (B cuadro). La diferencia principal es
que en este nuevo estándar hay dos dimensiones: el tiempo y la vista, tal y como se puede ver
en la figura.
En la imagen se puede observar que sólo en la cámara S0 se codifica una imagen como intra.
Esto se realiza cada 8 tramas. En las cámaras S2, S4, S6 y S7 se codifican las imágenes de
predicción a partir de la vista S0, también cada 8 tramas. Finalmente, el resto de imágenes se
predicen bidireccionalmente a partir de las imágenes próximas en tiempo y espacio (entre
vistas).
En realidad, el esquema de predicción puede llegar a ser mucho más complejo que el que
muestra la figura y por eso se han propuesto nuevas herramientas de predicción que se
puedan combinar con cualquier estructura de predicción.
2.5.4 CODIFICACIÓN PARA EL FORMATO MVD
Para formatos avanzados como este, la codificación se vuelve compleja debido a la cantidad de
información que se genera, MVD resulta una combinación de V+D y MVC. La codificación es en
principio basada en la técnica MVC original, no obstante en términos prácticos se puede hablar
de una codificación MVD.
La codificación en MVD funciona, dentro de un esquema global, de acuerdo a lo expuesto en la
figura 2.28.
11
Karsten Müller; “Representation and Coding Formats for 3D Video”; Conference Session 3DTV Content; IEEE Broadcast Technology Society; 2009 Alemania.
37
Figura 2.28 Cadena de transmisión en MVD12
Se observa que el codificador genera una única señal para la transmisión, la cual contiene la
información de las n vistas y su respectiva profundidad. El modo de predicción en este caso
varía ya que toma, adicionalmente, la información de profundidad. Este proceso de predicción
se detalla en la Figura 2.29.
Figura 2.29 Modo de predicción de imágenes para MVD
La codificación y predicción son basadas en MVC, tomando en cuenta que se van a generar
más señales del vídeo, el diagrama de bloques del codificador es más complejo.
12
“Compression for 3DTV - with special focus on MPEG standards”; Dr.-Ing. Aljoscha Smolid Fraunhofer HHI Image Processing Department; Alemania 2007.
38
2.5.5 CODIFICACIÓN PARA EL FORMATO LDV
Este formato es sin duda más preciso y de mayor calidad que los anteriores, y por ello su
codificación también resulta más compleja. Se puede aplicar el mismo MVC a estas señales,
haciendo un proceso similar al de MVD, donde las informaciones adicionales entran como
vistas extras al codificador MVC. Bajo esta premisa se puede aplicar el H.264 sin problema.
Es notorio que se puede recurrir en una complejidad mayor para los codificadores y en un flujo
de bits mucho mayor al que se pueda manejar para broadcasting. Por ello la compañía 3DTV
Solutions™ en pro de la calidad ha propuesto todo un esquema para este formato basándose
en su propio esquema de codificación LDV, donde se explota al máximo la relación entre todas
las capas y las vistas permitiendo posteriormente una efectiva reconstrucción a tasas de bits
más accesibles. Sin embargo una desventaja de esta propuesta es que requiere una gran
exactitud en los mapas de profundidad, de no ser así se generarán resultados erróneos.
2.5.6 CODIFICACIÓN PARA EL FORMATO DES
No cabe duda que para este formato se debe manejar el mismo criterio que para LDV y MVD; a
tal cantidad de información si bien es cierto MVC no se puede aplicar, ya que resultaría de gran
complejidad su implementación.
2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265
Se espera que el más reciente estándar de compresión, el códec de vídeo de alta eficiencia
(HEVC, por sus siglas en inglés), también conocido como H.265, se convierta en el estándar de
vídeo preferido en la próxima década.
Igual que todas las generaciones anteriores de tecnología de compresión de vídeo, el estándar
HEVC promete reducir el costo global de difusión y almacenamiento de activos de vídeo y al
mismo tiempo mantener o incrementar la calidad de la experiencia del espectador.
Sin sacrificar la calidad del vídeo, el HEVC puede reducir el tamaño de un archivo de vídeo o
flujo de bits hasta en un 50%, en comparación con el estándar AVC/H.264 o hasta en 75%, en
comparación con los estándares MPEG-2. El resultado es una reducción en los costos de
almacenamiento y transmisión de vídeo. De igual manera, el nuevo códec prepara el camino
para difundir contenido de más alta definición a fin de ofrecer al consumidor una experiencia
de más alta calidad.
El HEVC, diseñado para el avance de la industria de compresión de vídeo, tiene el propósito de:
Proporcionar un promedio de reducción de la tasa de bits de 50% para obtener una
calidad de vídeo fija, en comparación con el H.264.
Proporcionar mayor calidad con la misma tasa de bits.
Definir una sintaxis estándar para simplificar la implementación y maximizar la
interoperabilidad.
Seguir propiciando el trabajo en red, es decir, en flujos de transporte MPEG.
39
Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización
Mientras que el H.264 tiene siete perfiles (conjuntos definidos de herramientas de codificación
empleados para crear un flujo de bits que cumpla con los estándares), el HEVC define
actualmente tres: Main, Main 10 y Main Still Picture. Se espera que futuras extensiones del
códec HEVC incluyan un aumento de la profundidad de bits, muestreos de color 4:2:2 y 4:4:4,
MVC (codificación de vídeo multivista) y SVC (codificación de vídeo escalable).
El perfil Main del HEVC permite una profundidad de bits de 8 bits por color, mientras que Main
10 permite 8 bits o 10 bits por color. Debido a la opción adicional de profundidad de bits, el
perfil Main 10 tiene la capacidad de ofrecer una mejor calidad de vídeo que el Main.
Finalmente, el perfil Main Still Picture permite codificar una sola imagen fija con las mismas
exigencias del perfil Main.
La especificación HEVC también define 13 niveles, que son conjuntos de restricciones que
indican el rendimiento requerido del decodificador para reproducir un flujo de bits del perfil
especificado. Los niveles están, a su vez, divididos en dos niveles: el Main, que incluye los
niveles 1 - 3.1, y el High, que incluye los niveles 4 - 6.2 y está diseñado para aplicaciones muy
exigentes. Los niveles del HEVC comparten ciertas similitudes con los del H.264, con la
diferencia fundamental de la adición de los niveles 6, 6.1 y 6.2, que definen los requerimientos
para vídeo con resolución 8K.
El principal objetivo del nuevo estándar HEVC es proporcionar las herramientas necesarias
para transmitir la cantidad más pequeña de información requerida para un determinado nivel
de calidad de vídeo.
40
Figura 2.31 Modos/macrobloque
Aunque hay varias diferencias entre los estándares H.264 y HEVC para codificar cada
macrobloque, vale la pena mencionar dos de ellas: el aumento de los modos de intra
predicción y una partición refinada para la inter predicción.
Intra predicción y codificación: En el estándar H.264 existen nueve modos de
predicción en un bloque de 4 x 4 para la intra predicción dentro de un determinado
cuadro y nueve modos de predicción en el nivel de 8 x 8. Es menor en el nivel del
bloque de 16 x 16, donde se reduce a solo cuatro modos de predicción. La intra
predicción busca calcular el estado de los bloques adyacentes en una dirección que
minimiza el error del cálculo.
En el HEVC existe una técnica similar, pero el número de modos posibles es 35 (acorde
con la complejidad adicional del códec). Esto implica la participación de un número
enormemente alto de puntos de decisión en el análisis, ya que hay casi dos veces el
número de tamaños de intra predicción espacial en el HEVC, en comparación con el
H.264, y casi cuatro veces el número de direcciones de intrapredicción espacial.
Inter predicción y codificación: El H.264 usa compensación de movimiento a partir de
bloques, el tamaño y la forma de los bloques es ajustable para buscar redundancia
temporal en los cuadros de un vídeo. La compensación de movimiento suele ser
considerada la porción más exigente del proceso de codificación. La habilidad para
implementarla de forma inteligente dentro del espacio de decisión tiene una gran
incidencia en la eficiencia del códec. El HEVC lleva esta capacidad a otro nivel.
El HEVC reemplaza la estructura de macrobloque del H.264 por un conjunto de
bloques en estructura de árbol más eficientes, pero también complejos. Cada bloque
puede ser más grande (hasta 64 x 64) que el macrobloque estándar de 16 x 16, y
puede ser dividido de forma eficiente usando un quadtree. Este sistema permite al
codificador una gran flexibilidad para usar grandes particiones cuando predicen bien y
particiones pequeñas cuando se necesitan predicciones más detalladas.
Esto permite una mayor eficiencia en la codificación, ya que se pueden codificar a bajo costo
grandes unidades de predicción (incluido el tamaño del bloque en estructura de árbol) cuando
se adaptan al contenido. Del mismo modo, cuando algunas partes del bloque necesitan
predicciones más detalladas, estas también pueden describirse de forma eficiente.
41
Con respecto al impacto del HEVC en el mundo de la compresión de vídeo, hay varios casos en
los que la mejor calidad en la proporción de la tasa de bits del HEVC tendrá incidencia en las
aplicaciones de la industria. Teniendo en cuenta que la difusión de vídeo de alta calidad
demanda enorme capacidad de red, los siguientes son algunos de los beneficios proyectados:
Utilización de más canales en redes satelitales, de cable y de televisión IPTV.
Menor costo de difusión de vídeo gestionado y no gestionado.
Mayor alcance para los operadores móviles y de televisión IPTV con restricciones de
ancho de banda.
Mejor calidad de la experiencia de los servicios de transmisión libre (OTT) de modo
que estén al mismo nivel de la difusión tradicional.
En el mercado de la transmisión móvil, la reducción de la tasa de bits del HEVC de 30 – 50%,
para alcanzar una calidad comparable al H.264, se materializa en ahorros en los costos de la
difusión en las redes. Los operadores móviles no tendrán que distribuir tantos datos para un
determinado nivel de calidad, reduciendo los costos y haciendo la reproducción más confiable,
a condición de que el hardware del dispositivo pueda decodificar sin problemas el HEVC.
El HEVC también se suma a la tendencia hacia vídeo de 4K y 8K Ultra HD de alta resolución en
el mercado dominante. Gracias a que la resolución 4K presenta cuatro veces el número de
píxeles que la 1080p, la eficiencia que brinda el HEVC hace mucho más viable la difusión de 4K.
Se espera que antes de finalizar la década, el HEVC sea ampliamente adoptado en distintas
aplicaciones, como la transferencia y difusión de vídeo, vídeo satelital, vídeo por cable, IPTV,
vídeo vigilancia, vídeo corporativo y videojuegos.
42
3 Metodología
A continuación se expondrá un estudio en el que se analizarán y se compararán las relaciones
de las tasas de bits con respecto a la calidad de la imagen en los diferentes formatos y
codificadores explicados en el capítulo anterior.
3.1 ESTUDIO DE LAS TASAS DE BITS
Dependiendo del formato elegido y del esquema de codificación, se pueden tener uno o más
flujos de bits resultantes como señal de vídeo. En esta sección se analizará la tasa de bits que
cada formato genera y una comparación entre ellos.
3.1.1 PARÁMETROS DEL ESTUDIO
A continuación se explicarán los parámetros técnicos que se van a emplear para realizar el
estudio de las tasas de bits con respecto a las configuraciones empleadas para la codificación.
3.1.1.1 Codificador H.264
La recomendación ITU-T H.264-AVC (Advanced Video Coding) representa una evolución a los
estándares existentes para la codificación de vídeo como son H.261. H.262, H.263. Este
estándar surge ante la necesidad de procesar grandes cantidades de información digital de
vídeo y más específicamente como una solución eficiente al servicio de Televisión Digital, flujo
de vídeo por IP y las video comunicaciones.
Este estándar nace en 2003, presentando flexibilidad total ante la variedad de redes y
tecnologías existentes.
En una de las revisiones al estándar, la 2005-03, se incluyen las modificaciones al estándar de
codificación para añadir cuatro nuevos perfiles referidos principalmente a las 4:2:2 y 4:4:4, con
ello se mejora la calidad del vídeo y se da la posibilidad de que el estándar se extienda hacia un
rango más amplio de aplicaciones.
Para hacer más fácil la estandarización, H.264 ha establecido desde el inicio, y en cada una de
sus enmiendas, niveles y perfiles, los cuales permiten dar una escala y una clasificación de las
diferentes tasas de flujos de bits posibles. Se han desarrollado 7 diferentes perfiles para poder
cubrir varias aplicaciones existentes, desde redes inalámbricas hasta aplicaciones de cine
digital.
Cada perfil especifica un subconjunto de velocidades de transmisión, de la sintaxis
correspondiente y de los límites a los que se deben acoplar los decodificadores existentes para
cada perfil. En la primera versión existen 3 perfiles: Perfil línea base, perfil principal, y perfil
extendido.
El perfil línea base es aplicable a servicios de vídeo-comunicaciones en tiempo real
tales como vídeo conferencias y el vídeo teléfono.
43
El perfil principal está diseñado para el almacenamiento de información digital y para
servicios de broadcasting de televisión.
El perfil extendido se aplica a los servicios multimedia sobre Internet.
Existen además tres perfiles de alto nivel (High-Profile) definidos en las extensiones de los
rangos de fidelidad para aplicaciones tales como contenido-contribución, contenido-
distribución, y edición de estudio y post-procesamiento, estos perfiles son: Alto (High), Alto 10
(High 10), Alto 4:2:2 (High 4:2:2) y Alto 4:4:4 (High 4:4:4).
El High Profile es capaz de soportar cuantización de 8 bits con esquema de muestreo
4:2:0 para aplicaciones de alta resolución.
El perfil High 10 se basa en el mismo esquema 4:2:0, pero cuantiza las muestras con 10
o más bits.
El perfil High 4:2:2 trabaja en su esquema de muestro para 10 o más bits.
En el caso del perfil High 4:4:4 se asignan 12 bits por muestra, y se utiliza la
transformada de color residual integral para codificar la señal RGB.
Además de los perfiles, se definen también los niveles para cada perfil existente. Los niveles
corresponden generalmente al poder de procesamiento y capacidad de memoria del códec,
cada nivel soporta una determinada dimensión de la imagen (SDTV, HDTV). Como se observa,
los perfiles tienen puntos en común y puntos divergentes, a continuación se hace una
descripción más detallada de los mismos para cada perfil.
3.1.1.1.1 Elementos comunes en todos los perfiles
Como ya se ha comentado con anterioridad, para todos los perfiles se realiza la predicción de
los cuadros de la misma forma, se establecen dos tipos de cuadros, los cuadros I (cuadro intra)
y los cuadros P (cuadros predicted), los cuales dependiendo si el formato requiere más tipos de
cuadros, conforman el GOP (Group of Pictures).
Otro elemento común en todos los perfiles es el CAVLC (Context-based Adaptive Variable
Length Coding), es decir una codificación de longitud variable para mejorar la entropía del
código.
3.1.1.1.2 Perfil de línea Base
Los elementos exclusivos de este perfil son:
Orden flexible para los macrobloques: No necesariamente pueden estar estos en
orden, existe un mapa el cual asigna los macrobloques a los grupos de cuadros.
Orden arbitrario de los cuadros: Puede darse la alternancia en el orden entre bloques
precedentes y posteriores.
44
Redundancia de datos: Los datos son procesados en partes, y estas porciones de datos
pertenecen a los datos del código redundante obtenido por las diferencias o
semejanzas de la tasa de codificación, en comparación con los datos comparados
previamente en la misma porción de datos.
3.1.1.1.3 Perfil Principal
Para el perfil principal existe otro tipo de cuadros, los cuadros B (cuadros bi-predicted) y se
utiliza la predicción ponderada, debido a que se aplica un factor de ponderación a las muestras
de datos de predicción de movimiento en el grupo de cuadros P ó B.
El código para mejorar la entropía en este caso es CABAC (Context-adaptive binary arithmetic
coding), el cual consigue flujos de bits 10 % más pequeños.
3.1.1.1.4 Perfil Extendido
Este perfil incluye todas las características del perfil de línea base, y añade otros elementos
como:
Porciones SP.
Porciones SI.
Particiones de Datos: Los datos codificados son ubicados en particiones de datos
separados, cada partición puede ser ubicada en una capa diferente.
Maneja cuadros B.
Maneja predicción ponderada.
3.1.1.1.5 Perfiles Altos (High-Profiles)
Este perfil incluye todas las características del perfil principal, es decir, cuadros B, predicción
ponderada, CABAC; y además tiene las siguientes características:
Tamaño del bloque adaptativo: Puede ser 4x4 o 8x8, para muestreo de luminancia.
Matrices escaladas de cuantización: Diferentes escalas de acuerdo a frecuencias
específicas asociadas con los coeficientes de la transformada en el proceso de
cuantización para optimizar la calidad subjetiva.
3.1.1.1.6 Algoritmo de codificación
El algoritmo de codificación de H.264 consta de varios procesos, los cuales son descritos de
manera detallada en la figura 3.1.
45
Figura 3.1 Diagrama de bloques de la codificación H.264
Como se observa en la figura 3.1 el codificador tiene la posibilidad de escoger entre modos de
predicción Intra e Inter para determinada región en las imágenes.
La predicción se obtiene al eliminar los bloques y filtrar la señal proveniente de las imágenes
reconstruidas. El vector de movimiento y los modos de predicción Intra pueden ser
especificados para una variedad de tamaños de bloque en la imagen, dentro del bloque de
codificación de entropía H.264 se establecen dos métodos dependiendo del perfil: CAVLC y
CABAC.
3.1.1.1.7 Predicción Intra-Frame
H.264 usa el método de predicción Intra-código en macrobloques de tipo I, para reducir la gran
cantidad de bits codificados que la señal de entrada genera por sí misma. Este tipo de
predicción es más eficiente para el caso de secuencias de vídeo con poco movimiento. El
método se basa en intentar predecir el bloque actual que se está procesando, extrapolando los
píxeles vecinos de bloques adyacentes en una serie de direcciones definidas. Para codificar un
bloque o un macro bloque bajo este Intra-codificación, un bloque de predicción se forma en el
bloque reconstruido previamente, la señal residual entre el bloque en procesamiento y el de la
predicción es codificada. Para las muestras de luminancia el bloque de predicción puede estar
formado por sub-bloques de 4x4, bloques de 8x8, o macrobloques de 16x16 en nueve
direcciones la predicción; para la crominancia13 puede darse en bloques de 8x8 para 4:2:0,
8x16 en 4:2:2, y 16x16 en 4:4:4 en cuatro direcciones de predicción; para cada macro-bloque y
para cada una de sus componentes de color se determina el modo de predicción a usarse y el
conjunto de direcciones de predicción.
13
La crominancia es el componente de la señal de vídeo que contiene las informaciones del color (R,G,B).
46
3.1.1.1.8 Predicción Inter-Frame
La predicción Inter-Frame está destinada a reducir la correlación temporal con ayuda de las
herramientas de compensación y estimación del movimiento. Como es conocido en este
estándar, la imagen puede ser dividida en macrobloques o en bloques más pequeños. Un
macrobloque de 16x16 muestras de luminancia se puede dividir en bloques más pequeños de
a lo sumo 4x4. Para el modo 16x16 existen cuatro casos: 16x16, 16x8, 8x16 y 8x8. En el modo
8x8, los casos posibles son: 8x8, 8x4, 4x8 o 4x4. El bloque más pequeño requiere una mayor
cantidad de bits para la señal, el vector de movimiento y los datos extra del tipo de partición;
de ahí que la elección del tamaño de la partición depende de las características de la señal de
vídeo de entrada. Por lo general las grandes particiones son apropiadas para áreas
homogéneas en un cuadro, y las particiones de tamaño pequeño son apropiadas para áreas
muy detalladas.
El proceso de predicción Inter de un bloque en muestreo involucra eventualmente también la
selección de las imágenes a ser usadas como imágenes de referencia de un conjunto de
imágenes decodificadas previamente almacenadas. Las imágenes de referencia para la
compensación del movimiento son almacenadas en el buffer de imágenes. En lo que se refiere
a la imagen en procesamiento, las imágenes que le preceden y le suceden a la misma se
almacenan en ese orden en el Buffer.
3.1.1.1.9 Transformación y cuantificación
Sin duda en este aspecto se ha avanzado mucho en relación a los anteriores formatos, en este
caso se usa una Transformada entera a diferencia de las DCT que antes se usaban, con ello se
reduce, además de con el filtro, el efecto visual de bloque. H.264 utiliza una transformación
adaptativa con tamaños de bloque 4x4 y 8x8 (para los perfiles High).
Para mejorar la eficiencia en la compresión, el estándar emplea una estructura jerárquica para
la transformación, en la cual los coeficientes DC (Direct Cosine), de las transformaciones 4x4
vecinas para las señales de luminancia, están agrupadas en bloques de 4x4 y transformadas
nuevamente usando la transformada Hadamard14, el estándar especifica la transformada
Hadamard 4x4 para los coeficientes DC de la luminancia y sólo para el modo Intra 16x16, y la
transformada Hadamard 2x2 para los coeficientes DC de la crominancia.
Por lo general este proceso de transformación y cuantificación requiere muchas
multiplicaciones haciéndolo muy complejo en el momento de la implementación. Para evitar
esto, se usa en H.264 la transformada Hadamard con valores enteros haciendo más rápido y
eficiente el proceso.
14
Transformada de imágenes sumamente rápida, que consiste en un desarrollo en serie de funciones básicas cuyos valores son +1 o -1, en términos matemáticos la transformada H viene dada por:
𝐻 𝑢 =1
𝑁 𝑥 𝑛 ∗ (−1) 𝑏𝑖 𝑛 ∗𝑏𝑖 𝑢 𝑡−1
𝑖=0𝑁−1𝑛=0
47
3.1.1.1.10 Proceso de codificación
Este proceso consta de una serie de pasos que establecen el orden de la codificación, con ello
también es fácilmente identificable lo que se debe hacer en recepción para decodificar las
señales.
Paso 1: Se aplica la transformada entera hacia adelante, para DCT de una entrada de
luminancia de 4x4 la formula resulta en :
𝐻 = 𝐻𝐹𝐻𝑇 𝑐𝑜𝑛 𝐻 =
𝑎 𝑎 𝑎 𝑎𝑏 𝑐 −𝑐 −𝑏𝑎 −𝑎 −𝑎 𝑎𝑐 −𝑏 𝑏 −𝑐
; siendo las variables a, b, c:
𝑎 =1
2; 𝑏 =
1
2cos
𝜋
8 ; 𝑐 =
1
2cos
3𝜋
8
Estos valores de a, b, c pueden ser simplificados por simplicidad obteniendo estos nuevos
valores:
𝑎 =1
2; 𝑏 =
2
5; 𝑐 =
1
2
La multiplicación en el proceso de transformación se evita al integrarla con la cuantización, de
esta forma se obtiene:
𝑋 = 𝐻 𝐹𝐻 𝑇 ⊗ 𝑆𝐹
𝐻 =
1 1 1 12 1 −1 −21 −1 −1 11 −2 2 −1
; 𝑆𝐹 =
𝑎2
𝑎𝑏
2𝑎2
𝑎𝑏
2𝑎𝑏
2
𝑏2
4
𝑎𝑏
2
𝑏2
4
𝑎2𝑎𝑏
2𝑎2
𝑎𝑏
2𝑎𝑏
2
𝑏2
4
𝑎𝑏
2
𝑏2
4
La multiplicación indicada en la expresión de X se la hace elemento a elemento en las matrices
señaladas.
Paso 2: Post-escalamiento y cuantización, la matriz SF (post-escalamiento) permite
obtener una señal Y transformada y cuantizada. El tamaño del paso en la cuantización
se denomina Qstep.
𝑌𝑖𝑗 = 𝑋𝑖𝑗 𝑒𝑛𝑡𝑒𝑟𝑜 𝑆𝐹𝑖𝑗
𝑄𝑠𝑡𝑒𝑝
H.264 define un total de 52 valores de paso para la cuantización.
48
3.1.1.1.11 Codificación de entropía
Anteriormente a este estándar la forma de codificar era usando VLC´s (Variable Length Codes),
en el cual la longitud de la palabra código tenía que ver con la probabilidad de ocurrencia; para
H.264 los VLC´s funcionan de forma diferente.
Todos los elementos de sintaxis a excepción de los datos residuales, son codificados con el
código Golomb Exponencial15. Para los casos residuales en cambio se usa CAVLC, y para el
perfil principal y para los altos perfiles se utiliza el CABAC, el cual presenta mayor eficiencia
pero mayor complejidad comparándolo a CAVLC.
CAVLC: Código adaptativo de longitud variable basado en el contexto, después de la
transformación y la cuantización, la probabilidad de que los coeficientes sean 0, +1 ó -1
es muy alta. CAVLC maneja los 0, +1 ó -1 de diferente modo con los niveles de los
coeficientes, el total de número de 0 y +1 ó -1 son codificados, y para otros
coeficientes se codifica con su nivel.
CABAC: Código adaptativo aritmético binario basado en el contexto, se alcanza un
buen nivel de compresión, el modelo de probabilidad para cada símbolo se basa en 3
procedimientos (ver figura 3.2), los cuales son: Binarización, modelo de contexto y
Código aritmético binario.
Figura 3.2 Procesos de CABAC
3.1.1.1.12 Tasa de transmisión.
Con todos los argumentos presentados para cada perfil, la tasa de transmisión original del
vídeo digital se reduce en cada etapa y proceso que el códec efectúa, por ejemplo el filtro de
suavizado de bloques ya disminuye en 5 a 10% la tasa binaria. Sin duda la eficiencia de este
código es superior al de estándares anteriores; y para determinados PSNR16, se tienen mejores
tasas binarias que con tecnologías anteriores, por ejemplo se obtiene una tasa binaria 50%
menor a la que se obtiene con MPEG-2, llegando a tasas de compresión de 50:1.
Dependiendo del perfil, la tasa de bits es diferente, dado que para diferentes aplicaciones se
requiere mayor calidad. Lo que respecta a este trabajo, el ámbito al que se aplica esta
15
Un código exponencial Golomb de orden k es un tipo de código universal, donde el parámetro k es un entero no negativo, para H.264 se utiliza k=0. 16
La relación a señal a ruido pico PSNR, define la relación entre la energía máxima de la señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la codificación.
49
codificación, es en los vídeos SD (Standar Definition) y HD (High Definition), por lo cual los
perfiles de interés son el perfil principal y los perfiles High en los niveles correspondientes. Con
estas consideraciones, las tasas binarias se encuentran entre los 64 Kbps y 150 Mbps, es
posible que existan tasas mayores para servicios como SHDTV, no aplicables a nuestro estudio.
Por otra parte, la tasa de transmisión también puede variar de acuerdo a la codificación de
entropía realizada. Por ejemplo, para una definición estándar SD las tasas de bits se enmarcan
dentro de lo expuesto en la figura 3.3.
Figura 3.3 Tasa de bits en SD
3.1.1.2 FACTOR Q
El factor de calidad o Factor Q relaciona el bitrate con el tamaño del fotograma y el
"framerate" o velocidad de reproducción de fotogramas (normalmente, 25 f.p.s. (fotogramas
por segundo)). Este factor permite saber si el flujo con que está comprimido un vídeo en
particular es acorde con el tamaño del fotograma (en píxeles) y la velocidad de reproducción
en f.p.s. No es lo mismo usar un bitrate de 900kbps para un vídeo de un iPod (con un tamaño
de fotograma de 320x240 píxeles) que para un DVD, con un tamaño de 720x576 píxeles. El
flujo es el mismo, pero se reparte entre más o menos píxeles, lo que implica que toca más o
menos calidad por píxel en cada caso.
La fórmula para el cálculo del Factor Q es la siguiente:
𝑄 =𝐵𝑖𝑡𝑟𝑎𝑡𝑒
𝑓. 𝑝. 𝑠. ∗ 𝑎𝑛𝑐𝑜 ∗ (𝑎𝑙𝑡𝑜)
Bitrate en bits por segundo (bps)
Ancho del fotograma en píxeles (px)
Alto del fotograma en píxeles (px)
Según diversas fuentes los valores que debe tener el Factor Q para el códec H.264 tienen que
estar comprendidos en el rango de 0,2-0,35. Siendo el valor 0,25 el correspondiente a una
calidad de imagen óptima con el códec H.264.
50
Para realizar el estudio de las tasas de bits se usarán 4 valores de Factor Q relacionados con la
calidad de imagen resultante:
Tabla 3.1 Factor Q
Calidad Baja Calidad Normal Calidad Óptima Calidad Alta
Factor Q 0.17 0.2193 0.25 0.2741
3.1.1.3 SISTEMA DE CODIFICACIÓN PAL
PAL es la sigla de Phase Alternating Line (en español línea alternada en fase). Es el nombre con
el que se designa al sistema de codificación empleado en la transmisión de señales de
televisión analógica en color en la mayor parte del mundo. Es de origen alemán y se utiliza en
la mayoría de los países africanos, asiáticos y europeos, además de Australia y algunos países
latinoamericanos.
El sistema PAL surgió en el año 1963, de manos del Dr. Walter Bruch en los laboratorios de
Telefunken en su intento por mejorar la calidad y reducir los defectos en los tonos de color que
presentaba el sistema NTSC17. No obstante, los conceptos fundamentales de la transmisión de
señales han sido adoptados del sistema NTSC.
El sistema de color PAL se usa habitualmente con un formato de vídeo de 625 líneas por
cuadro (un cuadro es una imagen completa, compuesta de dos campos entrelazados) y una
tasa de refresco de pantalla de 25 cuadros por segundo, entrelazadas, como ocurre por
ejemplo en las variantes PAL-B, G, H, I y N. Algunos países del Este de Europa que abandonaron
el sistema SECAM ahora emplean PAL D o K, adaptaciones para mantener algunos aspectos
técnicos de SECAM en PAL.
El sistema PAL es más robusto que el sistema NTSC. Este último puede ser técnicamente
superior en aquellos casos en los que la señal es transmitida sin variaciones de fase. Pero para
eso deberían darse unas condiciones de transmisión ideales (sin obstáculos como montes,
estructuras metálicas...) entre el emisor y el receptor. En el caso en el que haya rebotes de
señal, el sistema PAL se ha demostrado netamente superior al NTSC (del que, en realidad, es
una mejora técnica). Esa fue una razón por la cual la mayoría de los países europeos eligieron
el sistema PAL, ya que la orografía europea es mucho más compleja que la norteamericana
(todo el medio oeste es prácticamente llano). Otro motivo es que en los EE.UU. son habituales
las emisiones de carácter local y en Europa lo son las estaciones nacionales, cuyas emisoras
suelen tener un área de cobertura más extensa. En el único aspecto en el que el NTSC es
superior al PAL es en evitar la sensación de parpadeo que se puede apreciar en la zona de
visión periférica cuando se mira la TV en una pantalla grande (más de 21 pulgadas), porque la
velocidad de refresco es superior (30Hz en NTSC frente a 25Hz en PAL). De todas formas este
es un argumento relativamente nuevo ya que en los años 50 el tamaño medio de la pantalla de
un receptor de televisión era de unas 15 pulgadas, siendo además que esta frecuencia de
17
NTSC: National Television System Committee es un sistema de codificación y transmisión de Televisión en color analógico desarrollado en Estados Unidos.
51
refresco de imagen se adoptó en su origen condicionada por la frecuencia de la corriente
alterna en los países europeos, que es 50Hz frente a los 60Hz de los EE.UU.
Por todo esto hay que tener en cuenta que el formato de vídeo cambia según el sistema que
uses. En el sistema PAL se utiliza 720 x 576 píxeles y 25 fotogramas por segundo, mientras que
en el sistema NTSC se utilizan 720 x 480 píxeles y 29,9 fotogramas por segundo.
Otras diferencias que podemos encontrar entre los dos sistemas pueden ser:
Los televisores y DVD europeos con el sistema PAL son capaz de reproducir DVD o
discos con el sistema NTSC, lo que no se puede hacer a la inversa.
En el sistema PAL la imagen de un vídeo cuenta con una resolución mucho mejor.
El sistema NTSC puede producir menos fatiga en los ojos después de exponer nuestra
vista durante mucho tiempo delante de una película.
3.1.1.4 RESOLUCIONES
En la actualidad existen numerosas resoluciones o tamaño del fotograma asociados al vídeo
digital que dependen entre otras cosas del sistema de reproducción en el que se visualice el
vídeo.
En la figura 3.4 se puede observar la relación de aspecto existente entre las distintas
resoluciones más empleadas en la actualidad.
Figura 3.4 Comparación de resoluciones estándar de vídeo
En este estudio nos centraremos en las siguientes cuatro resoluciones de vídeo digital
configuradas en el sistema de codificación PAL:
Resolución estándar ó SD: El tamaño del fotograma es de 720x576 píxeles con una
velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los DVD´s
y los canales estándar de TDT (SDTV).
52
Resolución HD -TDT: El tamaño del fotograma es 1024x768 píxeles con una velocidad
de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los canales HD de
las cadenas privadas de la TDT en España (como son MEDIASET y A3MEDIA), aunque
esta resolución no está considerada alta definición.
Resolución HD ó 720p: El tamaño del fotograma es 1280x720 píxeles con una
velocidad de 25 f.p.s. para el formato PAL. Esta resolución está considerada como alta
resolución y se considera la frontera entre el HD y el SD.
Resolución FULL HD ó 1080i: El tamaño del fotograma es 1920x1080 píxeles con una
velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los
canales de TDT de alta resolución (HDTV), en los Blu-Ray y en los HD DVD.
3.1.1.5 PSNR
La relación pico a pico de señal a ruido PSNR, define la relación entre la energía máxima de la
señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la
codificación; la PSNR de una imagen viene dada por:
𝑃𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 𝑀𝐴𝑋𝐸𝑅𝑅𝑖
2
𝑀𝑆𝐸
donde MAXERR denota el máximo valor absoluto de la diferencia de la componente de color y
MSE es el error cuadrático medio.
En esta medida, al comparar dos imágenes, el valor del PSNR varía según la similitud que hay
entre las dos imágenes, por esto, si el valor del PSNR es alto, la diferencia entre las dos
imágenes es menor y viceversa.
En la figura 3.5 se observa el valor del PSNR al comparar dos imágenes. Los colores reflejan el
valor del PSNR en cada píxel de la imagen, valores de orden creciente: rojo, amarillo, verde,
azul, negro. Siendo el rojo el valor más pequeño de PSNR, por tanto la diferencia más grande
entra las dos imágenes y el negro el valor más alto del PSNR, donde existe menor diferencia.
Figura 3.5 Valores PSNR de la comparación entre dos imágenes
53
3.2 TASA DE BITS PARA OCA
En este formato se genera un solo flujo de vídeo proveniente del DSP, que fusiona dos
imágenes en una del tipo cromático anaglífico, por lo tanto el flujo de bits resultantes estará
dentro de lo normal para vídeos de calidad SD o HD, es decir en un máximo de 4Mbps para
definición estándar y 14 Mbps para alta definición.
En la figura 3.6 se muestran cuatro fotogramas del vídeo en formato cromático anaglífico
sobre el que se ha realizado el estudio de la tasa de bits.
Figura 3.6 Fotogramas vídeo formato cromático anaglífico
A continuación se muestra el resultado del estudio de las tasas de bits asociadas a las
diferentes resoluciones:
Resolución 720x576:
Figura 3.7 Tasa de bits para un vídeo OCA de resolución SD
48
48,5
49
49,5
50
50,5
51
51,5
52
1500 2000 2500 3000
PSN
R (
Y)
(dB
)
Bitrate (kbps)
720x576
54
Resolución 1024x768:
Figura 3.8 Tasa de bits para un vídeo OCA de resolución HD-TDT
Resolución 1280x720:
Figura 3.9 Tasa de bits para un vídeo OCA de resolución 720p
50,5
51
51,5
52
52,5
53
3000 3500 4000 4500 5000 5500
PSN
R (
Y)
(dB
)
Bitrate (kbps)
1024x768
50,5
51
51,5
52
52,5
53
53,5
3500 4000 4500 5000 5500 6000 6500
PSN
R (
Y)
(dB
)
Bitrate (kbps)
1280x720
55
Resolución 1920x1080:
Figura 3.10 Tasa de bits para un vídeo OCA de resolución 1080i
3.3 TASA DE BITS PARA CSV
Si bien es cierto que para este formato existen dos posibilidades, ambas generan 2 flujos de
datos que serán transportados y transmitidos de diferente manera, por ello en este sistema se
demandan muchos recursos respecto a la tasa de bits, es decir se genera un flujo doble al
convencional, lo cual significa que para definición estándar se genera alrededor de 6 Mbps y
en alta definición 28 Mbps.
3.4 TASA DE BITS PARA CFC+
Como se estudió en el estándar de compresión, existen varios perfiles y modos de codificación
para imágenes de alta definición. En el caso de este estudio, se realiza el análisis de la tasa bits
tomando en cuenta una resolución de vídeo 720p (1280x720) y 1080i (1920x1080), el perfil
High y una configuración SbS (Side by Side). En la figura 3.11 se muestra un fotograma del
vídeo analizado.
Figura 3.11 Fotograma de vídeo en configuración SbS
53
53,2
53,4
53,6
53,8
54
54,2
54,4
8000 9000 10000 11000 12000 13000 14000 15000
PSN
R (
Y)
(dB
)
Bitrate (kbps)
1920x1080
56
La tasa de bits resultante correspondientes a 720p y 1080i se exponen a continuación en las
figuras 3.12 y 3.13 respectivamente.
Figura 3.12 Tasa de bits en 720p
Figura 3.13 Tasa de bits en 1080i
3.5 TASA DE BITS PARA V+D
El análisis en este caso se realiza para las dos posibilidades expuestas en 2.5.2.1 y 2.5.2.2. Es
importante señalar que para este y todos los formatos que incluyan profundidad (MVD, LDV,
DES), la eficiencia de las tasas de transmisión será mayor mientras los mapas de profundidad
sean mejor estimados y más exactos.
3.5.1 TASA DE BITS PARA MPEG-C PARTE 3
En este caso, el codificador trabaja en dos partes la primera obedece a una imagen normal en
2D que puede tener relación con los bitrate expuestos anteriormente dependiendo si esta
tiene alta definición o definición estándar. Y la segunda parte trabaja sobre el mapa de
profundidad asociado a la imagen normal.
45
45,5
46
46,5
47
47,5
48
48,5
49
3500 4000 4500 5000 5500 6000 6500
PSN
R (
Y)
(dB
)
Bitrate (kbps)
1280x720
49
49,5
50
50,5
51
51,5
52
52,5
8000 9000 10000 11000 12000 13000 14000 15000
PSN
R (
Y)
(dB
)
Bitrate (kbps)
1920x1080
57
Suponiendo una señal de vídeo de definición estándar promedio de entre 3 y 4 Mbps para la
señal 2D, el codificar su mapa de profundidad requeriría las tasas que detalla la figura 3.14.
Figura 3.14 Tasa de bits al codificar el mapa de profundidad
En la figura 3.14 se muestran tasas para diferentes codificaciones, incluyendo algunas
versiones del MPEG-4, si se toma en cuenta la versión más reciente se observa que para un
valor de PSNR de 46.29 dB se requieren alrededor de 105 Kbps, apenas un 3.5% de la señal 2D.
En general se observa que esta información se codifica por debajo del 20% de la información
de color, vale recalcar que se puede aplicar a vídeos en HD, obviamente sabiendo que se
tendrá mayor tasa de bits para el mapa de profundidad.
Estimando las tasas de bits para un vídeo SD, que en promedio puede tener 3.5 Mbps, y
considerando una PSNR de 42 dB (5% de la información de color), para una buena calidad:
𝑅 𝑉+𝐷 𝑆𝐷 = 𝑅𝑉 + 𝑅𝐷 = 3500𝐾𝑏𝑝𝑠 + 125𝐾𝑏𝑝𝑠 = 3625𝐾𝑏𝑝𝑠
Estimando las tasas de bits para un vídeo HD, que en promedio puede tener 12 Mbps, y
considerando una PSNR de 40 dB (8% de la información de color), para una buena calidad:
𝑅 𝑉+𝐷 𝐻𝐷 = 𝑅𝑉 + 𝑅𝐷 = 12000𝐾𝑏𝑝𝑠 + 960𝐾𝑏𝑝𝑠 = 12960𝐾𝑏𝑝𝑠
3.5.2 TASA DE BITS PARA VÍDEO AUXILIAR - H.264
En este caso se genera un solo flujo de datos, la relación entre las tasas de bits del vídeo 2D y
de la profundidad tiene una proporción similar al caso anterior, por debajo del 15%, no
obstante al usar un solo codificador, representa una optimización y un ahorro para los
sistemas de recepción. Las pruebas realizadas para este esquema se han hecho bajo la LDTV
(Low Definition TV), usando el one-seg, es decir, vídeos de tasas que van desde 250 Kbps hasta
1500 Kbps aproximadamente, con una resolución de 480x272 píxeles a 30 f.p.s., las pruebas se
han realizado variando algunos parámetros del codificador como el GOP (ver figura 3.16).
58
Figura 3.15 Vista izquierda y su correspondiente mapa de profundidad
En la figura 3.15 se representan la señal de vídeo de la vista izquierda (V_L) y el mapa de
profundidad de la vista izquierda (D_L), dependiendo del valor del parámetro GOP (Group of
Picture) asignado:
Figura 3.16 Tasa de bits al codificar el mapa de profundidad
En este caso se cuenta con un vídeo LDTV, que a 37 dB de PSNR, tiene una tasa de 1500 Kbps, y
cuyo mapa de profundidad se codifica alrededor de los 100 Kbps Con esto, se obtiene una
señal fácilmente manejable dentro de los rangos de vídeos convencionales, en general se
observa que la tasa de transmisión en este formato crecerá entre un 5 y un 10%. Para una
señal SD estimando que la profundidad toma un 7% de la información de color, la tasa oscilaría
entre los 3.21 Mbps y 4.28 Mbps.
Si bien es cierto no se presentan resultados en los casos de HD y SD, la relación de las tasas de
bits es proporcional de acuerdo al incremento de la calidad.
Es necesario señalar que es posible utilizar la extensión MVC de H.264, para codificar
profundidad, es decir haciendo que MVC trabaje con dos vistas y una de ellas sea la
información de profundidad; y por otro lado codificar la profundidad basándose en Platelet18.
En todos los casos se genera un solo flujo de bits ya que la información de color y la de
profundidad se procesan en el mismo códec H.264.
18
Algoritmo Platelet: se basa en el modelamiento de las superficies de los mapas de profundidad como funciones matemáticas definidas por intervalos.
59
3.6 TASA DE BITS PARA MVC
A continuación se detallará el uso de MVC en multivista con al menos información L+R (ver
figura 3.17), donde las exigencias son mayores pero de igual forma la calidad es superior.
Como se comentó anteriormente, el MVC es adaptable a n vistas (n>2). La mayor cantidad de
pruebas se han realizado para n=2. A continuación en la figura 3.18 se presenta los resultados
para n=2. Para el caso de 2 vistas los parámetros de prueba han sido: 480x272 de resolución,
se presentaron 235 frames a 30 f.p.s., CABAC y GOP =16.
Figura 3.17 Vista izquierda y derecha de una imagen estéreo
Figura 3.18 Tasa de bits al codificar con MVC y n=2
La figura anterior muestra tanto el resultado para MVC como para AVC Simulcast y AVC Stereo
SEI, debido a que MVC surge como una mejora para codificar 2 vistas que anteriormente se
codificaron independientemente.
De la Figura 3.18 se puede observar que a 34 dB, MVC codifica dicha secuencia a 1500 Kbps,
entonces a partir de estos datos se obtiene el Factor Q:
480𝑥272 = 130560𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒
130560𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒∗ 30
𝑓𝑟𝑎𝑚𝑒
𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 3916800
𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
60
𝐹𝑎𝑐𝑡𝑜𝑟 𝑄 = 1500𝐾𝑏𝑖𝑡𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗
1
3916800
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
𝑝í𝑥𝑒𝑙𝑒𝑠= 0.357434
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠
Con dicho Factor Q se estima la tasa de bits para una señal SD (720x576):
720𝑥576 = 414720𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒
414720𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒∗ 30
𝑓𝑟𝑎𝑚𝑒
𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 12441600
𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.357434
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠= 4.447𝑀𝑏𝑝𝑠
De igual forma, con el mismo Factor Q se estima la tasa de bits para una señal 1080i
(1920x1080):
1920𝑥1080 = 2073600𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒
2073600𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒∗ 30
𝑓𝑟𝑎𝑚𝑒
𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 62208000
𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
𝑅1080 𝑖 = 62208000𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.357434
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠= 22.23𝑀𝑏𝑝𝑠
Las tasas de bits obtenidas corresponden a un nivel muy alto de calidad de imagen debido a
que el valor del Factor Q obtenido está muy por encima del valor correspondiente a una
calidad de imagen óptima (Q=0,25). Por estas razones los valores de las tasas de bits resultan
muy elevados para las resoluciones 720p y 1080i.
Tomando en cuenta otros datos experimentales, la figura 3.20 muestra las tasas en las
siguientes condiciones: n=8 vistas, 640x480, 320 cuadros presentados a 30 f.p.s., GOP=16 y
CABAC.
Figura 3.19 Imagen grabada con 8 cámaras espaciadas 20cm entre ellas
61
Figura 3.20 Tasa de bits al codificar con MVC y n=8
Por lo tanto aplicando el mismo análisis para n=8, la estimación de la tasa de bits en SD y en
HD 1080i a 37dB es:
640𝑥480 = 307200𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒
307200𝑝í𝑥𝑒𝑙𝑒𝑠
𝑓𝑟𝑎𝑚𝑒∗ 30
𝑓𝑟𝑎𝑚𝑒
𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 9216000
𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
𝐹𝑎𝑐𝑡𝑜𝑟 𝑄 = 1500𝐾𝑏𝑖𝑡𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗
1
9216000
𝑠𝑒𝑔𝑢𝑛𝑑𝑜
𝑝í𝑥𝑒𝑙𝑒𝑠= 0.1628
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠
𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.1628
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠= 2.025𝑀𝑏𝑝𝑠
𝑅1080 𝑖 = 62208000𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.1628
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠= 10.13𝑀𝑏𝑝𝑠
3.7 TASA DE BITS PARA MVD
El análisis aquí se basa en que se obtendría una tasa superior a la del MVC en un 5% por vista
de profundidad existente, sin embargo al considerar a la profundidad como una vista más en el
codificador y contando con algoritmos y métodos de inter-correlación más eficientes la tasa de
bits requerida no es excesiva. La figura 3.22 muestra resultados experimentales considerando
un vídeo de 1024x768, un GOP=15, CABAC, 30 cuadros por segundo, con 100 cuadros
presentados.
31
32
33
34
35
36
37
38
400 600 800 1000 1200 1400 1600
PSN
R (
Y)
(dB
)
Bitrate (Kbps)
MVC n=8
62
Figura 3.21 Fotograma de la vista izquierda con su correspondiente mapa de profundidad
Figura 3.22 Tasa de bis al codificar con MVD
3.8 TASA DE BITS PARA LDV
LDV muestra un ahorro respecto a MVD debido a que la información adicional al vídeo de color
no requiere de grandes tasas de bits, y pueden no representar un exceso sobre las tasas hasta
ahora estudiadas; LDV resulta una mejora y las pruebas realizadas siempre hacen referencia a
la comparación de los formatos MVD y LDV.
38,2
38,4
38,6
38,8
39
39,2
39,4
39,6
39,8
40
1500 1700 1900 2100 2300 2500
PSN
R (
Y)
(dB
)
Bitrate (Kbps)
MVD
63
Figura 3.23 Vistas izquierda y derecha con sus mapas de profundidad asociados
En la figura 3.24 se representan los resultados experimentales para LDV. Con los datos de la
figura 3.24, estimando la tasa de bits para un vídeo de 1024x768 a 16.67 f.p.s. a 38 dB con la
señal SD se tiene:
𝑅𝐿𝐷𝑉 = 𝐶𝑜𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑖𝑠𝑡𝑎 𝑏𝑎𝑠𝑒 + 𝑃𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 + 𝑂𝑐𝑙. 𝐶𝑜𝑙𝑜𝑟 + 𝑂𝑐𝑙 𝑃𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑
𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠
𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.05 + 0.039 + 0.025 + 0.02
𝑏𝑖𝑡𝑠
𝑝í𝑥𝑒𝑙𝑒𝑠= 1.67𝑀𝑏𝑝𝑠
Figura 3.24 Tasa de bits al codificar con LDV
3.9 TASA DE BITS PARA DES
Dado que este formato se codifica mayormente con Platelet, no se realiza un estudio de sus
tasas de bits, no obstante al codificarlo con MVC; el orden de sus tasas de bits es superior al de
V+D en un 5 ó 10%.
64
4 Análisis de transmisión
Con todo el análisis anterior, corresponde ahora estudiar el mecanismo por el cual se
transmiten y se difunden las señales concernientes a una señal de vídeo 3D. Son ya conocidas
las posibilidades existentes para crear efecto 3D, por lo tanto es importante el análisis del
proceso de transmisión para las señales involucradas. Dependiendo del formato y técnica
elegida es necesario estudiar, cómo se ajustan las técnicas del estándar con las señales que se
desean transmitir.
Figura 4.1 Arquitectura de transmisión genérica para señales de vídeo 3D
4.1 TRANSMISIÓN DE LAS SEÑALES DE 3DTV EN EL ESTÁNDAR DVB-T
4.1.1 CARACTERÍSTICAS TÉCNICAS DE LA RED TDT EN ESPAÑA
En todos los casos, la imagen, sonido y datos asociados a una emisión de TDT se codifican
digitalmente en formato MPEG-2 ó MPEG-4 (esta última para emisiones en HD), y el flujo
binario resultante de la codificación se transmite mediante una modulación de espectro digital
COFDM (Coded Orthogonal Frequency Division Multiplexing), que divide el flujo de
datos binarios en varios miles de sub-flujos.
La norma DVB-T permite canales de 6, 7 u 8 MHz de ancho de banda, define tres modos de
trabajo para el sistema de modulación COFDM, uno basado en 2048 frecuencias ortogonales,
denominado 2k, otro con 4096 frecuencias, denominado 4k, y el tercero con 6817 frecuencias,
denominado 8k. Cada modo dispone de un número de portadoras, unas para pilotos y
señalización y otras para transportar información. Las portadoras pueden modularse en QPSK19
(4-QAM20), en 16-QAM ó en 64-QAM. A su vez, cada símbolo tiene una duración fija en tiempo,
19
QPSK (Quadrature Phase Shift Keying): modulación por desplazamiento de fase, es una forma de modulación angular que consiste en hacer variar la fase de la portadora entre un número de valores discretos. 20
QAM (Quadrature Amplitude Modulation): amplitud modulada en cuadratura, es una técnica que transporta datos, mediante la modulación de la señal portadora, tanto en amplitud como en fase.
65
y se separa del siguiente símbolo por un intervalo de guarda, que puede ser 1/4, 1/8, 1/16 ó
1/32 de la longitud de símbolo.
De acuerdo con el actual Plan Técnico nacional de la TDT, en España se utiliza la banda de
frecuencias de UHF (470 – 862 MHz) con 8 MHz de ancho de banda, y el modo de trabajo 8k
(con 6817 portadoras totales, de las cuales 6048 son portadoras de datos).
Figura 4.2 Características técnicas de la red TDT en varios países europeos
El resto de características técnicas utilizadas por los operadores de las redes de difusión son las
siguientes:
Modulación: 64-QAM.
Intervalo de guarda: 1/4 de la longitud del símbolo, lo que resulta en que cada
portadora está separada en 1116 Hz y la duración del símbolo, más el intervalo de
guarda, es de 1120 microsegundos (símbolo útil de 896 microsegundos e intervalo de
guarda de 224 microsegundos).
FEC (Forward Error Correction): 2/3, es decir, 2 bits son útiles y 1 bit es de redundancia
para corregir, en recepción, los errores que se producen durante la transmisión.
Con estos parámetros, el ancho de banda efectivo es de 19,91Mbps.
4.1.2 COMPARACIÓN DE LOS ESTÁNDARES DVB-T /DVB-T2
DVB-T [Digital Video Broadcasting – Terrestrial] es el estándar para televisión digital terrestre
lanzado por DVB Project; en la actualidad cuenta con su segunda versión (DVB-T2), la que
forma parte de la familia de estándares del DVB, compuesta por DVB-T/T2 (para televisión
terrestre), DVB-S/S2 (para televisión satelital), DVB-C/C2 (para televisión satelital), DVB-H/SH
(para televisión en dispositivos móviles), DVB-IPTV (para televisión sobre redes IP), y otra larga
lista de estándares para distribución y consumo de contenidos multimedia.
Por otra parte las mejoras introducidas en T2 permiten la transmisión transparente de
contenidos estereoscópicos, usando las modulaciones de última generación (ver figura 4.3).
66
Figura 4.3 Canal DVB–T2 Con diversas modulaciones adaptadas al tipo de servicio
Las principales características técnicas del estándar DVB-T se puede apreciar en la Tabla 4.1.
Tabla 4.1 Estándar DVB - Características Técnicas
DVB-T DVB-T2
FEC Códigos convolucionales
+ Red Solomon LPDC + BCH
Tasa de codificación 1/2, 2/3, 3/4, 5/6, 7/8 1/2, 3/5, 2/3, 3/4, 4/5, 5/6
Modulación QPSK, 16QAM, 64QAM QPSK, 16QAM, 64QAM,
256QAM
Canalización 5, 6, 7, 8 MHz 1.7, 5, 6, 7, 8, 10 MHz
Intervalos de guarda 1/4, 1/8, 1/16, 1/32 1/4, 19/256, 1/8, 19/128,
1/16, 1/32, 1/128
Tamaño de FFT 2k, 8k 1k, 2k, 4k, 8k, 16k, 32k
Pilotos dispersos 8% del total 1%, 2%, 4%, 8% del total
Pilotos continuos 0.35% del total 2.6% del total
Máxima capacidad 31.66 Mbps 50.34 Mbps
4.1.3 EL ESTÁNDAR DVB 3D TV
En Julio de 2010 el proyecto DVB publicó una serie requerimientos comerciales para la
implementación exitosa de una modelo de emisión de contenidos 3D sobre TDT. En este
documento se hace énfasis en la importancia de mantener la compatibilidad con los
decodificadores (STB21) en uso, así como también con la infraestructura existente desplegada
por los operadores, de tal manera que pudiesen utilizar sus canales HD existentes para
transmitir contenidos 3D, de manera exclusiva, sin afectar a los subscriptores que no quisieran
usar dicho servicio (DVB, 2010). Se esperaba que los consumidores necesitaran un periodo de
adaptación, para tener un primer acercamiento a los nuevos contenidos y que posteriormente
demandaran mayor calidad y prestaciones.
21
STB (Set Top Box): Receptor de televisión o Decodificador, es el nombre con el que se conoce el dispositivo encargado de la recepción y opcionalmente decodificación de señal de televisión analógica o digital (DTV), para luego ser mostrada en un dispositivo de televisión.
67
Finalmente, en febrero de 2011 fue publicado el estándar oficial para la emisión de contenidos
en 3D (DVB 3DTV) (ETSI, 2011). Dicho estándar plantea la evolución de los servicios de
distribución de contenido 3D en dos fases:
Fase inicial: Está enfocada en satisfacer las necesidades actuales del mercado y
atender un número determinado de casos de uso (ver figura 4.4). Se debe contemplar
el uso, compatibilidad y no perturbación entre decodificadores (STB) 3D y no 3D
(HDTV), televisores con capacidades 3D y sin ellas (HDTV), y conectores HDMI (1.4a y
anteriores). En algunos casos el usuario deberá cambiar su televisor manualmente a
modo 3D, mientras en otros, el decodificador o el televisor deberán intentar presentar
al usuario solo la vista del ojo izquierdo.
Figura 4.4 Estándar DVB 3D TV. La parte gris muestra los aspectos tecnológicos afectados
De igual manera, los contenidos emitidos deben ser compatibles con los STB
capacitados para recibir vídeo 3D presentes en el mercado hoy o requerir a lo sumo
una actualización del software de máquina (firmware upgrade), y tener las siguientes
características: usar la codificación H.264/AVC; tener una proporción espacial (aspect
ratio) de 16:9; y usar los formatos 3D Side-by-Side (SbS) y Top-and-Bottom (TaB) de
acuerdo con las siguientes resoluciones y frecuencias:
720p ; 50 Hz TaB
720p ; 50 Hz SbS (Opcional)
1080i ; 25 Hz SbS
720p ; 59,94 / 60 Hz TaB
720p ; 59,94 / 60 Hz SbS (Opcional)
1080i ; 29,97 / 30 Hz SbS
1080p ; 23,98 / 24 Hz TaB
1080p ; 23,98 / 24 Hz SbS
68
Por otra parte, no se define ningún requerimiento especial para el sonido, pero sí una
señalización especial para indicar la disposición del cuadro de vídeo de acuerdo con las
resoluciones vistas anteriormente. Asimismo se especifica, en una adición especial al
estándar DVB, la forma en que se deben gestionar los subtítulos en una transmisión 3D
(DVB, 2011). El documento introduce el concepto de disparidad de subtítulos –
distancia entre una región de subtítulos y el segundo plano (background), que permite
determinar la ubicación de los subtítulos sobre el eje Z–, algo que puede cambiar en
cada cuadro (ver figura 4.5).
Figura 4.5 La disparidad permite identificar la distancia a la que se encuentra cada región sobre la que se dibujan subtítulos.
Segunda fase: Para las generaciones segunda y tercera de esta tecnología, se espera
la introducción de nuevos STB con la capacidad de decodificar vídeo H.264 MPEG-4
AVC (Advanced Video Coding) con la extensión MVC (Multiview Video Coding). El
nuevo formato no necesitará ser compatible con los STB actuales, pero sí con los
dispositivos compatibles con el vídeo HD estándar. Se espera también que las
transmisiones DVB 3DTV incluyan por lo menos una vista HD con la calidad original, de
manera que los dispositivos que no posean la capacidad de procesar el contenido 3D,
aún dispongan de un contenido apropiado para enseñar al usuario. En esta nueva fase
de la evolución de los servicios 3D, se abre la posibilidad de transmitir múltiples vistas
estereoscópicas a elección del usuario, aprovechando las mejoras en ancho de banda
ofrecidas por la evolución de DVB, T2 y S2.
69
4.1.4 GENERACIÓN DEL TRANSPORT STREAM Y MULTIPLEXACIÓN
Con respecto al formato, está claro que se pueden originar uno o varios flujos de señales
digitales que deben configurar el Transport Stream22(TS), estos serán posteriormente
codificados, modulados y transmitidos. DVB-T establece un tipo de empaquetamiento basado
en la norma MPEG-2, es decir ajustándose a la señalización, cabeceras y secuencias para audio
y vídeo.
De lo ya estudiado, hay algunos formatos que originan una sola señal de vídeo, que dentro de
su concepción ya viene señalizada e identificada de acuerdo a la información que corresponda,
en algunos formatos el codificador puede incluir un multiplexor, haciendo que si existen
múltiples señales estas se codifiquen y se genere un único flujo de transporte TS. En otro caso
cada señal eventualmente puede ser introducida al multiplexor final, todo esto dependerá de
la disponibilidad de equipos en el mercado y del soporte para tal cantidad de entradas.
4.1.4.1 Empaquetamiento y generación del TS con MPEG-2
MPEG-2 establece algunas normas para generar los elementos que van a ser multiplexados
posteriormente, tanto para audio como para vídeo, MPEG-2 establece que el flujo de
transporte TS va acompañado de su audio respectivo, por lo tanto en el caso de señales
múltiples de vídeo como es en la 3DTV se puede duplicar el audio o ahorrar ese espacio.
Parte importante de la cabecera del TS es el PID (Packet Identification), los paquetes de TS
pueden traer información de programas diferentes, además de datos para la reconstrucción de
la información. Aparece este campo de 13 bits que permite la distinción de paquetes de
diferentes Elementary Streams (ES). De los 213 valores posibles, hay 17 reservados para
funciones especiales. Esto permite 8175 valores que son asignables a todos los otros ES que
forman el TS. El multiplexor tiene que garantizar que cada ES tenga un único PID. La normativa
MPEG no especifica qué valores de PID se tienen que dar a los ES (a excepción de los 17
mencionados). Con la cabecera incluida el Transport Stream se estructura como lo detalla la
figura 4.6.
Figura 4.6 Generación del Transport-Stream
22
Transport Stream es un protocolo de comunicación para audio, vídeo y datos especificado en los estándares de MPEG-2. Los flujos binarios de vídeo y audio de cada programa se comprimen independientemente formando cada uno de ellos una “corriente elemental”
70
El Múltiplex MPEG-2 Transport Stream puede contener varios programas audiovisuales, cada
uno de los cuales está compuesto por uno o varios flujos elementales PES23 distribuidos en
paquetes de transporte. Estos paquetes a su vez están marcados con un PID que identifica a
qué flujo elemental pertenecen.
Sin embargo, para que el decodificador pueda recuperar completamente un programa a través
de los valores de los PID de los paquetes correspondientes, es necesario incluir información
adicional dentro del flujo de transporte que relacione estos PID con los programas a que
pertenecen. Tal información se denomina “Información Específica de los Programas” o
“Program Specific Information” (PSI).
Esta “Información Específica de los Programas (PSI)”, definida por MPEG-2 para la Capa de
Sistema (ISO/IEC 13818-1), comprende la inclusión dentro del flujo de transporte, de 4 tipos de
tablas:
Program Association Table (PAT): Esta tabla, de inclusión obligatoria, es transportada
por los paquetes con PID=0x0000 y contiene una lista completa de todos los
programas disponibles en el Transport Stream.
Contitional Access Table (CAT): Esta tabla debe estar presente si al menos un
programa del múltiplex es de acceso condicional. Se transporta por los paquetes con
PID=0x0001, y proporciona detalles de los sistemas de cifrado empleados, así como los
valores de los PID de los paquetes de transporte que contienen la información del
control de acceso condicional.
Program Map Table (PMT): Cada programa audiovisual incluido en un Transport
Stream tiene una tabla PMT asociada con él. Dicha tabla proporciona detalles acerca
del programa y de los flujos elementales que comprende.
La “Información del Servicio” o “Service Information” (SI), en sistemas DVB (ETS 300 468)
incluye, además, otros 4 tipos de tablas de inserción obligatoria dentro del Transport Stream y
3 tipos de tablas opcionales:
1) Obligatorias:
Network Information Table (NIT): Esta tabla proporciona información acerca de la red
física usada para transmitir el “Transport Stream”, como por ejemplo: frecuencias del
canal, detalles del transpondedor del satélite, características de modulación, detalles
de redes alternativas disponibles, etc. Se transporta por los paquetes identificados con
PID=0x0010.
Service Description Table (SDT): Contiene datos que describen los servicios en el
sistema, como por ejemplo: nombres de los servicios, nombre del proveedor y otros
23
PES (Packed Elementary Streams): Los flujos comprimidos elementales de Vídeo y Audio se empaquetan formando los flujos elementales empaquetados PES de vídeo y audio respectivamente. Los paquetes de los flujos PES son de longitud variable.
71
parámetros asociados a cada servicio de un mismo múltiplex. Se transporta por
paquetes identificados con PID=0x0011.
Event Information Table (EIT): Se utiliza para transmitir información relativa a los
acontecimientos en curso o futuros en el múltiplex MPEG recibido en la actualidad, y
eventualmente sobre otros múltiplex MPEG, tal como: denominación, hora de
comienzo, duración, etc. Se transporta por los paquetes identificados con PID=0x0012.
Time & Date Table (TDT): Esta tabla proporciona información relativa a la hora y fecha
del momento, y se utiliza para poner en hora el reloj interno del receptor. La citada
información se incluye en una tabla específica debido a las frecuentes actualizaciones
de la misma. Se transporta por paquetes identificados mediante PID=0x0014.
2) Opcionales:
Bouquet Association Table (BAT): El término “bouquet” se usa para referirse a una
“Colección de servicios comercializados como entidad única”. Las tablas BAT
proporcionan información relativa a los “bouquets”. Además de informar del nombre
del bouquet aportan la lista de los servicios disponibles en cada bouquet. Se
transportan por paquetes identificados con PID=0x011.
Running Status Table (RST): Las tablas RST actualizan de forma rápida la información
relativa a la situación de un acontecimiento (que está o no sucediendo). Se transmiten
una sola vez y no de forma repetitiva por los paquetes identificados mediante
PID=0x0013.
Time Offset Table (TOT): Proporciona información relativa a la fecha y hora real así
como a la diferencia horaria local (“local time offset”). Se actualiza frecuentemente,
siendo transmitida por paquetes identificados con PID=0x0014 (como las TDT).
Stuffing Tables (ST): Estas tablas de “relleno” se emplean para invalidar tablas que ya
no sirven. Por ello usan paquetes que comparten valores de PID con otros tipos de
tablas: 0x0010; 0x0011; 0x0012 0x0013 y 0x0014.
Cada tabla está constituida, según su importancia, por una o varias secciones (256 como
máximo, con una longitud máxima de 1.024 bytes excepto para tablas tipo “Private” y “EIT”
que pueden alcanzar los 4.096 bytes). Dichas secciones están distribuidas a lo largo de una
serie de paquetes de transporte identificados con un PID común.
4.1.4.2 Multiplexación MPEG-2 para señales 3DTV que contienen múltiples
informaciones
De lo ya estudiado está claro que en ciertos formatos, al utilizar más de un codificador se
genera más de un flujo de de datos, y por ello estos deben ser obligatoriamente multiplexados
si se quiere que se transmitan bajo la misma plataforma.
72
Existen otros formatos también que, si bien es cierto generan múltiples señales, también
pueden contener la etapa de multiplexación en el propio codificador, ya que agregan allí su
señalización y sincronía correspondiente, lo cual sería recuperado sin problema por el
correspondiente decodificador. El formato que utiliza este tipo de multiplexación es el de Dual
Streaming, considerando que los flujos pueden ser de señales L+R o de Vídeo y profundidad.
Con esto los formatos que después del codificador generan múltiples flujos son:
Dual Streaming L+R.
MPEG-C parte 3.
MVC sin multiplexación en el codificador (típicamente para n=2).
En estos casos la multiplexación se estructura como lo detalla la figura 4.7.
Figura 4.7 Multiplexación de vistas en dual Streaming
Se observa que las vistas izquierda y derecha se alternan en el MUX y se los provee de sus PID
y PMT (Program Map Tables) para identificarlos y poder demultiplexarlos en recepción; el
audio se multiplexa después del vídeo izquierdo o si se requiere cada vídeo puede ir
acompañado del audio de forma idéntica al TS de MPEG-2 para televisión 2D.
Para el caso de MPEG-C parte 3 el esquema es idéntico y el Transport Stream se estructura de
forma similar (ver figura 4.8), la diferencia radica en que no se usa vídeo derecho sino
profundidad lo que hace que el codificador genere un cuadro de menos bitrate y el Mux
alterne, entre cuadros L de mayor tamaño que los de profundidad, y los propios cuadros
“depth”.
Figura 4.8 Multiplexación de vistas izquierda + profundidad
Para MVC el multiplexor generaliza su aplicación a n vistas, aunque lo más típico sean 2,
obteniendo mejor compresión por la relación intervista. Dado el panorama actual de la TDT, es
recomendable que para señales 3D se ofrezca al multiplexor de audio, vídeo y datos un solo
flujo para no alterar la arquitectura actual.
73
Actualmente la multiplexación se usa estableciendo grupos de entrada por canal de TV (1
vídeo, 1 audio, datos). En nuestro caso, si la 3DTV requiere más de una señal de vídeo para la
entrada se tienen dos opciones: un Multiplexor previo para entregar un solo flujo (ver figura
4.9), u ocupar un solo Multiplexor antes de la transmisión ocupando el espacio que ocuparían
varios programas de TV (ver figura 4.10).
Figura 4.9 Multiplexación de canales 2D y 3D con un solo Multiplexor
Figura 4.10 Multiplexación de canales 2D y 3D con varios Multiplexores
4.1.5 CODIFICACIÓN MODULACIÓN Y TRANSMISIÓN DE LA SEÑAL DE TV-3D
Una vez generado el TS final, el estándar DVB-T establece una serie de procedimientos hasta
llegar a la modulación y difusión de la señal digital.
La secuencia de etapas después del TS son: codificación de canal, modulación y etapa de
radiofrecuencia o difusión. La codificación de canal (RS 204-188-8), y modulación con su
respectivo FEC se realiza de forma idéntica a las señales monoscópicas, así como la generación
de tramas OFDM para su transmisión.
Está claro que el tipo de modulación, tasa de FEC, relación entre el tiempo útil y tiempo de
guarda, al repercutir directamente con la tasa de bits que se soporta, deben ser analizados en
que combinación se pueden cumplir los requerimientos que una señal 3DTV exige. A
continuación se analiza las características del DVB-T que concuerdan con los requerimientos de
la señal 3D para sus distintos formatos.
74
4.1.5.1 Estructura de trama OFDM
La señal transmitida se organiza en tramas. Cada trama tiene una duración TF y consiste de 68
símbolos OFDM. Cuatro tramas constituyen una súper-trama. Cada símbolo está constituido
por un conjunto de K=6817 portadoras en el modo 8K, o K=1705 portadoras en el modo 2K, y
es transmitido con una duración TS. Se compone de dos partes: una parte útil TU y un intervalo
de guarda de duración D. El intervalo de guarda consiste en una continuación cíclica de la parte
útil y se inserta previa a ella. Hay cuatro valores posibles para el intervalo de guarda que se
verán más adelante.
A continuación veremos una serie de tablas con parámetros de modulación para canales de 8
MHz, según la norma DVB-T:
Tabla 4.2 Número de portadoras
Duración de la parte de símbolo para los intervalos de guarda permitidos en canales de 8MHz:
Tabla 4.3 Intervalos de guarda
En la tabla 4.4 se pueden observar las tasas de transmisión asociadas a una determinada
modulación, intervalo de guarda y FEC:
Tabla 4.4 Tasas de transmisión en DVB-T (en Mbps)
75
Todo depende de la tasa que ocupen las señales de TV, es decir, de qué calidad se requiere,
para según eso acomodar las técnicas y obtener valores coherentes según la tabla 4.4; y con
ello lograr utilizar los 8 MHz de forma eficiente.
4.1.5.2 Señales de TV-3D en las tramas OFDM
De acuerdo a las características antes expuestas compete ahora analizar la relación entre las
mismas y las señales de 3DTV, evidentemente esta información no puede ser tratada
simplemente como una SDTV ó HDTV. Entonces corresponde analizar las tasas de bits que cada
formato requiere y así poder estimar el valor del ancho de banda que va a ser utilizado.
En la Tabla 4.5 se muestra un resumen de las tasas de transmisión de los diferentes formatos
de 3DTV.
Tabla 4.5 Tasas de transmisión en DVB-T para los formatos de 3DTV
FORMATO BIT-RATE 2D BIT-RATE 3D % PSNR
OCA
SD: 3.5 Mbps SD: 4 Mbps 14.28 36
HD: 7 Mbps HD:8 Mbps 14.28 42
CSV
SD: 4 Mbps SD: 4 Mbps x 2 = 8 Mbps 100 36
HD: 8 Mbps HD: 8 Mbps x 2 = 16 Mbps 100 42
CFC+ HD: 8 Mbps HD: 8 Mbps 0 42
V+D
MPEG-C PARTE 3
SD: 3.5 Mbps SD: 3.625 Mbps 10 42
HD: 12 Mbps HD: 12.960 Mbps 10 40
AUX VIDEO H.264
SD: 4 Mbps SD: 4.28 Mbps 7 40
HD: 8 Mbps HD: 8.56 Mbps 7 40
MVC SD: 3 Mbps SD: 3.729 Mbps 8 40
MVD SD: 4 Mbps SD: 4.635 Mbps 15 40
LDV SD: 3 Mbps SD: 3.44 Mbps 8.7 42
DES SD: 4 Mbps SD: 4.52 Mbps 8.8 42
Es decir, las señales 3D con formatos de calidad aumentan la tasa de un canal de TV-2D entre
un 10 y un 15%. Por otro lado, los formatos más compatibles y más fáciles de implementar
pueden llegar a incrementar en un 100% los requerimientos.
Con todo esto, si queremos introducir en una trama OFDM una señal de 3DTV dependerá del
formato, de la calidad y del vídeo mismo. Por ejemplo usando 64 QAM con FEC de 2/3, que es
lo que típicamente se utiliza en la TDT en España, tendremos una trama capaz de soportar
19.91 Mbps. Así se puede variar los parámetros y, dependiendo del formato, adecuar a la
trama a la señal de vídeo 3D.
76
4.2 TRANSMISIÓN DE LAS SEÑALES 3DTV SOBRE IPTV
4.2.1 CONCEPTOS SOBRE IPTV
El término IPTV (Internet Protocol Television) hace referencia a sistemas de distribución de
señales de televisión o vídeo utilizando conexiones de banda ancha sobre el protocolo IP.
Desde el punto de vista del usuario, un sistema IPTV funciona de igual forma que los servicios
de pago por visión (satélite, cable); pero para el proveedor de servicio, IPTV incluye la
adquisición, procesado y envío seguro de contenidos audiovisuales sobre una infraestructura
de red basada en IP. Las características principales de los sistemas IPTV son:
Soporte para la televisión interactiva. Los sistemas IPTV soportan el uso de
aplicaciones interactivas como la guía electrónica de programación, juegos
interactivos, posibilidad de cambiar los ángulos de visión o navegar por Internet a alta
velocidad.
Personalización. Los sistemas IPTV permiten personalizar los hábitos televisivos, los
usuarios deciden qué es lo que quieren ver y cuándo lo quieren ver.
Accesible en varios dispositivos. Los servicios IPTV no están limitados a su uso en
televisores, los clientes pueden utilizar ordenadores personales y dispositivos móviles
para acceder a los distintos servicios.
Poco ancho de banda requerido. En lugar de realizar el envío de todos los canales
disponibles a cada usuario, las tecnologías IPTV permiten enviar sólo el canal que el
usuario ha solicitado.
Posibilidad de integrar el servicio de televisión con otros servicios basados en IP.
Como los servicios de voz sobre IP o navegar por Internet a alta velocidad.
El término IPTV se suele confundir con el término Televisión por Internet o Internet TV.
Aunque ambos entornos utilizan la tecnología IP para realizar el envío de contenidos, hay
varias diferencias entre ellos.
La principal diferencia es que la Televisión por Internet utiliza la red pública Internet para la
transmisión de datos, mientras que IPTV utiliza redes privadas. Estas redes tienen una
extensión geográfica limitada y suelen ser propiedad del proveedor de servicios, lo que
permite construir los sistemas de forma que den soporte a servicios de alta definición. El
problema de la transmisión de servicios a través de Internet es que, al tratarse de una red
pública, no se tiene control sobre los elementos de la red y, por tanto, no se puede garantizar
la disponibilidad de los servicios ni una calidad mínima de los mismos.
Otra diferencia entre ambas es el mecanismo de acceso a los contenidos. En el caso de
Internet es necesario disponer de un PC, mientras que en los sistemas IPTV se suele utilizar un
decodificador (set-top box) para acceder a los distintos servicios.
77
4.2.1.1 Estructura general de un sistema IPTV
A lo largo de los últimos años se han desarrollado varias arquitecturas de red para
proporcionar servicios IPTV, siendo posible su implementación en redes de fibra óptica, redes
ASDL, redes inalámbricas e incluso sobre Internet.
A menudo se suministra junto con el servicio de conexión a Internet, proporcionado por un
operador de banda ancha sobre la misma infraestructura, pero con un ancho de banda
reservado a tal propósito. Por ello, se requiere un mínimo de al menos unos 4 Mbps para
poder recibir la señal de TV comprimida según el formato MPEG-2 o MPEG-4, algo que se
consigue fácilmente con los estándares de ADSL24, como son ADSL2 y ADSL2+, que pueden
llegar hasta 20 Mbps en bajada, sobre el bucle de abonado, si la distancia a la central
telefónica que provee el servicio no es muy elevada.
La capacidad estimada para servicios IPTV, utilizando tecnología MPEG-4 para la
codificación/compresión de la señal de vídeo, está entre 1 y 2 Mbps por cada canal de
definición estándar (SDTV) y 7-8 Mbps por cada canal de alta definición (HDTV). Para dos
canales simultáneos el ancho de banda bruto resultante es de 2-4 Mbps para un servicio
básico25 ó 8-10 Mbps si se incluye un canal HDTV. En la tabla 4.6 se observan los anchos de
banda promedio para los formatos MPEG-2 y MPEG-4.
Tabla 4.6 Anchos de banda referenciales requeridos para IPTV
MPEG-2 MPEG-4
Standard Definition (SD) 4 Mbps 1,5 Mbps
High Definition (HD) 15 Mbps 8 Mbps
La modalidad de oferta de IPTV puede ser de difusión en directo (streaming), igual que la
actual televisión digital TDT, de descarga bajo demanda (VoD26) o de Pay Per View27, y se
puede ver, bien en un PC o en un televisor convencional, al que se le ha colocado un
decodificador (set top-box) que descomprime y decodifica la señal de vídeo para presentársela
al usuario.
24
ADSL (Asymmetric Digital Subscriber Line): Tecnología de acceso a Internet de banda ancha que utiliza la línea telefónica convencional para realizar la transmisión de los datos. 25
Paquete Básico (2 canales SDTV) 26
VoD (Video on Demand): El vídeo bajo demanda es el envío de programación de vídeo a los usuarios en el momento en que lo soliciten. Suele incluir funciones de pausa, avance y retroceso rápido de contenidos. 27
Pay Per View (PPV): Canales de pago por visión
78
Figura 4.11 Arquitectura general de la red IPTV
4.2.2 TÉCNICAS DE TRANSMISIÓN EN SISTEMAS IPTV
El envío de streams de vídeo sobre redes IP se puede realizar utilizando tres técnicas distintas
denominadas broadcast, unicast y multicast.
4.2.2.1 Unicast
La técnica de transmisión unicast realiza el envío de contenidos creando conexiones
individuales entre el centro de datos y el decodificador de usuario. Por ejemplo, si cuatro
usuarios desean acceder al mismo canal, se deben crear cuatro conexiones punto a punto
desde el centro de datos hasta el decodificador de cada usuario a través de la red IP. Desde el
punto de vista técnico es el mecanismo más sencillo de implementar, pero presenta el
inconveniente de que no realiza un uso efectivo del ancho de banda de la red.
Como se puede observar en la figura 4.12, cuando varios usuarios acceden al mismo canal a la
vez, se crean tantas conexiones dedicadas a través de la red como usuarios desean acceder al
canal. En este ejemplo el servidor necesita enviar cuatro streams distintos para realizar el
envío del canal desde el centro de datos al decodificador de cada usuario. Las conexiones
creadas se extienden sobre dos oficinas regionales con dos conexiones dedicadas entre el
centro de datos y cada oficina. También se establecen conexiones entre los routers de las
oficinas regionales y las puertas de enlace residenciales instaladas en los domicilios de los
abonados.
En los entornos de tipo unicast, donde se necesitan muchas conexiones IP, es necesario
disponer de enlaces de red de alta velocidad. Este método de transporte IP se suele utilizar en
aplicaciones de vídeo bajo demanda donde cada usuario conectado recibe un stream único.
79
Figura 4.12 Transmisión unicast
4.2.2.2 Broadcast
Las redes IP soportan la funcionalidad denominada broadcast donde se emite el mismo stream
de vídeo a todos los dispositivos de acceso conectados a la red, independientemente de si han
solicitado o no el canal. El inconveniente de este modo de envío es que los dispositivos
receptores pierden tiempo procesando paquetes de vídeo no solicitados. Otro inconveniente
que hace inadecuado el uso de broadcast en aplicaciones IPTV es que esta técnica de
comunicación no soporta el enrutado. Como las redes IPTV se pueden extender utilizando
routers el uso de broadcast es prohibitivo, la red y los dispositivos receptores se saturarían si
se envían todos los canales a todos los dispositivos receptores.
4.2.2.3 Multicast
El término multicast se refiere a la transmisión de una señal de vídeo única a varios usuarios de
forma simultánea. Como ocurre con la técnica broadcast, todos los usuarios reciben la misma
señal al mismo tiempo, pero en este caso no hay un stream distinto para cada receptor.
La ventaja más significativa de su uso en redes IP es la reducción del ancho de banda necesario
para transmitir contenidos de alta calidad a través de la red. Esto es así porque sólo se envía
un stream a cada router, que se encarga de realizar una copia para cada dispositivo receptor
conectado. También se reduce la carga de procesado del servidor de contenidos ya que sólo
transmite una copia del stream al router de distribución.
80
Figura 4.13 Transmisión multicast
Como se puede observar en la figura 4.13, con el uso de la técnica multicast sólo se envía una
copia del canal sobre cada enlace de red, duplicando el stream cuando los enlaces de red se
dividen. Este método de transmisión reduce considerablemente el número de conexiones
necesarias para el envío de contenidos. La técnica multicast se suele utilizar para emitir
programaciones IPTV en vivo y es una técnica eficiente para su uso en infraestructuras IPTV.
Sin embargo, la transmisión multicast presenta algunos inconvenientes:
No es posible realizar las acciones de rebobinar, pausa o avance rápido de los
contenidos.
Incrementa la carga de trabajo y procesado de los routers. Los routers deben realizar
copias de los streams para enviarlos a todos los clientes conectados.
Todos los componentes, desde la fuente de contenidos hasta el decodificador de
usuario, deben soportar la tecnología multicast.
81
4.3 RESULTADOS DE LAS PRUEBAS DE TRANSMISIÓN
A continuación se expondrá los resultados obtenidos en las pruebas de transmisión de señales
3D tanto en el estándar DVB-T como en IPTV.
Las pruebas de transmisión se han realizado bajo el estándar DVB 3D, más concretamente, con
las características de la fase inicial en los servicios de distribución de contenidos 3D
comentados en el punto 4.1.3.
Se han utilizado dos vídeos 3D con formato CFC+ con la configuración SbS y TaB, con una
proporción espacial de 16:9 y usando la codificación H.264/AVC. En las figuras 4.14 y 4.15 se
muestran los fotogramas de ambos vídeos.
Figura 4.14 Fotograma del vídeo en configuración SbS
Figura 4.15 Fotograma del vídeo en configuración TaB
Estos dos vídeos se han codificados con las siguientes resoluciones y frecuencias, tal como
viene detallado en el estándar DVB 3D:
720p @ 50 Hz TaB
720p @ 50 Hz SbS
1080i @ 25 Hz SbS
720p @ 59,94 / 60 Hz TaB
720p @ 59,94 / 60 Hz SbS
82
1080i @ 29,97 / 30 Hz SbS
1080p @ 23,98 / 24 Hz TaB
1080p @ 23,98 / 24 Hz SbS
La codificación de los vídeos se ha realizado con una calidad alta, es decir, con un Factor Q =
0.2741, obteniendo una tasa de bits de 14209 Kbps para la resolución 1080i y 6315 Kbps para
la resolución 720p.
4.3.1 TRANSMISIÓN DE 3DTV EN EL ESTÁNDAR DVB-T
Los parámetros DVB-T que se han utilizado en la transmisión son los característicos de la
región de España, emitiendo en el canal 21, es decir:
Tabla 4.7 Parámetros DVB-T utilizados para las pruebas de transmisión
DVB-T
Número de canal 21
Frecuencia 474 MHz
Tasa de codificación 2/3
Modulación 64QAM
Ancho de banda 8 MHz
Intervalos de guarda 1/4
Modo de transmisión 8k
Ancho de banda efectivo 19.91 Mbps
El ancho de banda efectivo del TS es 19.91 Mbps y las tasas de bits de los vídeos es 14209 Kbps
y 6315 Kbps para 1080i y 720p respectivamente. Para crear la trama de transporte que se va a
emitir, en el multiplexor se pueden incluir los vídeos de la siguiente forma:
Un solo servicio con un vídeo de resolución 1080i.
Dos servicios, cada uno con un vídeo de resolución 720p.
Dos servicios: uno con un vídeo de resolución 1080i y el otro con un vídeo de
resolución 720p.
4.3.1.1 Medidas de nivel/calidad de la señal COFDM
Antes de mostrar los resultados obtenidos hay definir una serie de parámetros utilizados para
realizar las medidas:
BER: Tasa de bits erróneos. Es la relación que existe entre en nº de bits erróneos y el
número de bits transmitidos. Hay dos tipos de BER, el CBER (antes de FEC) y el VBER
(después de FEC).
83
Figura 4.16 Tipos de BER
MER: Tasa de errores de modulación. Es la representación numérica del vector de
error, que es la diferencia entre la señal patrón que debería recibirse y la señal con
errores que realmente recibe.
C/N: Relación portadora a ruido. Es una expresión del ruido agregado por el
modulador en los amplificadores y otros componentes activos de los sistemas de
distribución.
A continuación se muestran los valores mínimos requeridos para la correcta recepción de
servicios de difusión de TV en Alta Definición:
Tabla 4.8 Valores para la correcta recepción28
DVB-T
POTENCIA 45 – 70 dBµV
C/N ≥ 25 dB
MER > 20 dB
CBER < 1x10-2
VBER < 2x10-4
Una vez explicados los parámetros utilizados para medir la calidad de la señal OFDM, se
procede a mostrar los resultados obtenidos al hacer la medición en la toma de antena:
1) Con la configuración TaB:
Tabla 4.9 Resultados de las medidas de calidad de de la señal COFDM con la configuración TaB
TaB
RESOLUCIÓN/ FRECUENCIA
720p 50Hz
720p 59.94Hz
1080p 23.98Hz
POTENCIA (dBµV) 51.2 51.4 50.2
C/N (dB) 31.4 31.3 33.5
MER (dB) 27 27.1 26.8
CBER 1.2x10-4 1.5x10-4 1.9x10-4
VBER < 10-7 < 10-7 < 10-7
28
Fuente: “Manual de Buenas Prácticas Cadena de Recepción”. Grupo de Calidad del Servicio de Televisión Digital Terrestre. Subdirección General de Infraestructuras y Normativa Técnica.
84
2) Con la configuración SbS:
Tabla 4.10 Resultados de las medidas de calidad de de la señal COFDM con la configuración SbS
SbS
RESOLUCIÓN/ FRECUENCIA
720p 50Hz
720p 59.94Hz
1080i 25Hz
1080p 23.98Hz
1080i 29.97Hz
POTENCIA (dBµV) 51.5 51.4 49.8 51.4 51.3
C/N (dB) 31.2 31 25.3 31 30.8
MER (dB) 27 27.3 20.9 26.9 27.1
CBER 1.7x10-4 1.4x10-4 1.2x10-4 2.2x10-4 1.2x10-4
VBER < 10-7 < 10-7 < 10-7 < 10-7 < 10-7
Como se puede comprobar en las tablas 4.9 y 4.10, los valores obtenidos para los vídeos en las
dos configuraciones y en todas las resoluciones/frecuencias, están dentro de los valores
admitidos para una correcta recepción.
También se comprueba a nivel visual que todas las configuraciones medidas tienen una
perfecta recepción y se pueden visualizar correctamente en un televisor 3D.
4.3.1.2 ANÁLISIS DE LOS TRANSPORT STREAMS (TS)
En esta sección se mostrará el contenido de los Transport Streams generados tras la
multiplexación y antes de ser transmitidos, los cuáles, serán comparados con los Transport
Streams obtenidos en el receptor.
En la tabla 4.11 se muestran las tasas de bits de los Transport Streams transmitidos y recibidos
para la configuración TaB. También se muestra el número de paquetes erróneos seguidos en el
caso de los TS recibidos. Por último se detalla el porcentaje de la tasa de bits asociado a cada
tabla, vídeo, audio y paquetes de relleno:
85
Tabla 4.11 TS transmitidos y recibidos en la configuración TaB
Transmitidos Recibidos
720p 50Hz
720p 59.94Hz
1080p 23.98Hz
720p 50Hz
720p 59.94Hz
1080p 23.98Hz
Bitrate multiplex (bps) 19905882 19905882 19905882 19905814 19905814 19905826
Continuity errors 0 0 0 6 5 7
TEI errors 0 0 0 0 0 0
PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
VIDEO (PID: 0x0000) 18.63% 30.20% 46.68% 18.54% 29.09% 40.64%
AUDIO (PID: 0x0000) 0.97% 0.95% 1.40% 0.97% 0.95% 1.42%
NULL (PID: 0x1FFF) 80.35% 68.80% 51.86% 80.43% 69.91% 57.89%
En la tabla 4.12 se exponen las tasas de bits de los Transport Streams transmitidos y recibidos
para la configuración SbS y una resolución de 720p.
Tabla 4.12 TS transmitidos y recibidos en la configuración SbS con resolución 720p
Transmitidos Recibidos
720p 50Hz
720p 59.94Hz
720p 50Hz
720p 59.94Hz
Bitrate multiplex (bps) 19905882 19905882 19905815 19905823
Continuity errors 0 0 15 7
TEI errors 0 0 0 0
PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02%
CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02%
PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02%
NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00%
SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00%
VIDEO (PID: 0x0000) 29.20% 67.23% 30.17% 67.63%
AUDIO (PID: 0x0000) 0.95% 0.95% 0.95% 0.95%
NULL (PID: 0x1FFF) 69.80% 31.77% 68.82% 31.37%
En la tabla 4.13 se exponen las tasas de bits de los Transport Streams transmitidos y recibidos
para la configuración SbS con una resolución de 1080i y 1080p.
86
Tabla 4.13 TS transmitidos y recibidos en la configuración SbS con resolución 1080i y 1080p
Transmitidos Recibidos
1080i 25Hz
1080p 23.98Hz
1080i 29.97Hz
1080i 25Hz
1080p 23.98Hz
1080i 29.97Hz
Bitrate multiplex (bps) 19905882 19905882 19905882 19905834 19905816 19905822
Continuity errors 0 0 0 7 8 7
TEI errors 0 0 0 0 0 0
PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%
NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
VIDEO (PID: 0x0000) 54.76% 67.72% 69.47% 67.61% 67.15% 56.10%
AUDIO (PID: 0x0000) 0.95% 0.95% 0.95% 0.95% 0.95% 0.94%
NULL (PID: 0x1FFF) 44.24% 31.28% 29.52% 31.39% 31.84% 42.91%
4.3.2 TRANSMISIÓN DE 3DTV SOBRE IPTV
Las pruebas de transmisión de 3DTV sobre IPTV se han realizado mediantes las técnicas
Unicast y Multicast.
4.3.2.1 Pruebas de transmisión mediante la técnica Unicast
A continuación se expondrán las gráficas correspondientes a los anchos de banda de los
paquetes de datos recibidos mediante IP. Se ha transmitido los vídeos 3D indicados en el
comienzo del apartado 4.3 con las configuraciones TaB y SbS, ambas con resoluciones 720p y
1080i. El flujo de paquetes ha sido analizado desde el cliente (receptor). Hay que indicar que
las unidades indicadas en el eje de ordenadas es bps.
1) Transmisión con configuración TaB y resolución 720p:
Figura 4.17 Ancho de banda en Unicast para configuración TaB y resolución 720p
En la figura 4.17 se observa que el valor medio del ancho de banda con estas características es
de aproximadamente 5Mbps.
87
2) Transmisión con configuración TaB y resolución 1080i:
Figura 4.18 Ancho de banda en Unicast para configuración TaB y resolución 1080i
En la figura 4.18 se puede observar que el valor medio del ancho de banda con estas
características es de aproximadamente 10Mbps, el doble que con resolución 720p.
3) Transmisión con configuración SbS y resolución 720p:
Figura 4.19 Ancho de banda en Unicast para configuración SbS y resolución 720p
En la figura 4.19 se observa que el valor medio del ancho de banda con estas características es
de aproximadamente 5Mbps. Los valores obtenidos son muy similares a la configuración TaB.
4) Transmisión con configuración SbS y resolución 1080i:
Figura 4.20 Ancho de banda en Unicast para configuración SbS y resolución 1080i
En la figura 4.20 se puede observar que el valor medio del ancho de banda con estas
características es de aproximadamente 10Mbps, el doble que con resolución 720p.
4.3.2.2 Pruebas de transmisión mediante la técnica Multicast
Las pruebas de transmisión realizadas bajo esta técnica, se han llevado a cabo con las mismas
configuraciones que en el apartado anterior. Los resultados de las pruebas se reflejan a
continuación:
88
1) Transmisión con configuración TaB y resolución 720p:
Figura 4.21 Ancho de banda en Multicast para configuración TaB y resolución 720p
Como se puede comprobar en la figura 4.21 el ancho de banda es un poco menor con relación
al resultado con la técnica Unicast; pero el valor medio del ancho de banda resultante sigue
siendo aproximadamente 5Mbps.
2) Transmisión con configuración TaB y resolución 1080i:
Figura 4.22 Ancho de banda en Multicast para configuración TaB y resolución 1080i
En la figura 4.22 se da la misma situación que para el caso anterior, el ancho de banda es algo
inferior al de la técnica Unicast; pero el valor medio del ancho de banda vuelve a ser
aproximadamente 10Mbps.
3) Transmisión con configuración SbS y resolución 720p:
Figura 4.23 Ancho de banda en Multicast para configuración SbS y resolución 720p
En la figura 4.23 se ve que estamos en la misma situación que en la configuración TaB, el ancho
de banda disminuye un poco con esta técnica; pero su valor medio sigue estando en torno a
los 5Mbps.
89
4) Transmisión con configuración SbS y resolución 1080i:
Figura 4.24 Ancho de banda en Multicast para configuración SbS y resolución 1080i
En este caso vuelve a suceder lo mismo que en los casos anteriores, el ancho de banda esta en
torno a los 10Mbps, un poco más bajo que con la técnica Unicast, tal como se observa en la
figura 4.24.
En conclusión, para enviar contenidos 3D de alta definición a través de IPTV, es necesario un
ancho de banda muy elevado que puede oscilar entre 5 y 20 Mbps.
Desde el punto de vista visual, el resultado obtenido en los receptores de visualización 3D,
tanto en un televisor 3D como en un teléfono móvil con pantalla autoesteroscópica ha sido
bueno. Puesto que tanto en la técnica Unicast como en la técnica Multicast se han visualizado
los vídeos 3D transmitidos con buena calidad.
90
5 Conclusiones y líneas de desarrollo
5.1 CONCLUSIONES
La estereoscopía ha tenido un desarrollo sostenido y extenso a lo largo de la historia, por
lo cual es muy necesario que se aplique acorde a la tecnología existente en todos los
campos, especialmente en el servicio de Televisión.
La Televisión Digital es un gran avance tecnológico, sin embargo este servicio debe
competir con tecnologías como IP-TV e Internet; por lo cual el brindar nuevas
prestaciones (3DTV) al usuario, harán que la TV sea atractiva y marque la línea de
desarrollo para otras tecnologías.
Todas las técnicas de codificación actuales para imágenes estereoscópicas se
fundamentan en la norma H.264 / MPEG-4, dado que este esquema de codificación está
vigente para DVB-T y DVB-T2 se tiene un gran punto a favor para poder implementar el
servicio.
Las técnicas de adquisición proponen variadas soluciones para múltiples vistas, en la
actualidad lo más aplicable son los métodos basados en 2 vistas (L+R), por lo tanto estos
métodos son los más apropiados para iniciar pruebas en etapas de adquisición y de
transmisión.
Las técnicas que usan el mapa de profundidad como información importante, presentan
un ahorro en tasas de bits; sin embargo merecen una infraestructura de adquisición de
imágenes exclusiva y propia de los formatos V+D, que son más adaptables a los
estándares de codificación menos sofisticados, por lo tanto representan una opción
conveniente en la etapa de transmisión.
La calidad en la adquisición depende proporcionalmente del número de vistas adquiridas,
es por ello que para un sistema multivista, la calidad en reproducción será máxima; no
obstante las dificultades en los requerimientos del canal y el costo de los equipos
aumenta significativamente. La demanda de recursos técnicos en estos casos hace que lo
más recomendable sea utilizar interpolación o creación de vistas no adquiridas y para
evitar el uso excesivo del canal, esta creación se debería hacer en recepción, lo cual por
ahora supone receptores bastante complejos.
El estándar H.264 es muy robusto en cuanto al tipo de información que puede procesar,
los anexos AVC y MVC presentan una gran herramienta para el desarrollo de sistemas con
gran cantidad de información; la 3DTV para DVB-T resulta completamente aplicable desde
este parámetro técnico y versátil al poder utilizar diferentes anexos de la norma
dependiendo del formato de producción 3D elegido.
91
La interfaz HDMI 1.4a establece la mejor solución para la comunicación de las señales 3D
en recepción, ya que se encuentra estandarizado y muestra grandes prestaciones, además
de contar con la aceptación del mercado.
Es necesario reglamentar el uso del ancho de banda de los múltiplex, para que así se
establezca un proceso de aplicación de señales estereoscópicas a uno o más canales y que
estos convivan tanto con señales HD y SD.
Con el ahorro de espectro radio eléctrico que implica la TDT, no es crítico que servicios
como el 3D puedan aplicarse con técnicas como Simulcast o Dual Streaming, ya que a
pesar de duplicar los recursos que se utilizarían normalmente, la capacidad disponible es
suficiente.
El desarrollo de la HDTV va íntimamente ligado al desarrollo de la 3DTV, ya que la primera
generación del servicio se fundamenta en la utilización del cuadro de alta definición.
La decisión sobre qué contenidos deben transmitirse en canales 3D, debe estar ligada a la
aceptación de los consumidores, por lo tanto es necesario tomar en cuenta los estudio
previos que determinan la clase de eventos que los espectadores desean y esperan ver
por televisión 3D.
El problema de la incomodidad visual debe ser abordado en todas las etapas: en la
adquisición, calibrando mejor las cámaras y utilizando mejores métodos de captación; en
la etapa de pre-procesamiento ajustando el paralaje y la disparidad horizontal, en la
codificación evitando pérdida de información de profundidad; en recepción efectuando
una correcta reconstrucción de la señal visual y por último al utilizar pantallas de alta
calidad con métodos polarizados o multiplexados en tiempo que generen la menor fatiga
visual posible.
Dentro de la reproducción sobre pantallas estereoscópicas y autoestereoscópicas, se
requieren amplios estudios y experimentos de evaluación subjetiva para determinar la
técnica de mayor aceptación.
Desde el punto de vista de transmisión sobre IPTV, uno de los inconvenientes es que el
sistema debe soportar tasas de transferencia muy elevadas para garantizar la calidad de
servicio contratada por los clientes.
Los clientes que deseen acceder a los servicios 3D deben tener televisores y
decodificadores 3D de alta definición.
Por el momento la solución económicamente más conveniente en la reproducción de la
señal, es utilizar gafas polarizadas o LCS. Las gafas 3D activas (LCS) tienen mejores
resultados en la resolución, ya que muestran imágenes de alta resolución en calidad Full-
HD y menor distorsión de la imagen; por otro lado las polarizadas permiten obtener
92
mayor luminosidad al no existir un parpadeo de la imagen a cada ojo; sin embargo en
ambos casos la solución mucho más barata implica utilizar gafas polarizadas (pasivas).
El presente estudio ha abordado en mayor o menor escala todos los aspectos que
comprenden un sistema de 3DTV, concluyendo que el sistema es viable técnicamente, y
que en pocos años algún operador de TDT en España debe incluir este servicio como parte
de las innovaciones de la digitalización.
5.2 LÍNEAS DE DESARROLLO
Del estudio realizado se desprenden campos donde es necesario desarrollar investigación
y generar aplicaciones propias del estándar.
Se recomienda efectuar más pruebas de campo y de calidad subjetiva para determinar el
formato óptimo para la norma DVB 3DTV y establecer una línea base de la evolución del
servicio, tomando en cuenta las generaciones estudiadas.
Con la aparición del nuevo códec HEVC o H.265 se abrirán nuevas líneas de desarrollo de
la 3DTV debido al mayor nivel de compresión de este códec con su antecesor.
La nueva Ultra HD será un nuevo desafío para el desarrollo de la tecnología de vídeo 3D.
Dado que la TV satelital ha profundizado en mayor medida el desarrollo de la 3DTV, se
recomienda estudiar los proyectos que se han lanzado, y recoger las técnicas y resultados
favorables para adaptarlos a las normas de televisión digital terrestre.
Se debe analizar e investigar métodos para actualizar los receptores STB tanto para los
formatos 3D actuales como los formatos que se están desarrollando.
Se recomienda desarrollar aplicaciones, con el objetivo de que el usuario interactúe con la
señal de vídeo 3D, pueda manipularla y elegir el formato de acuerdo a la pantalla o a su
conveniencia.
Es necesario establecer el grado de aceptación del servicio por parte de los consumidores
en la sociedad, por lo tanto se recomienda realizar estudios de mercado considerando
aspectos sociales y económicos.
93
Referencias Bibliográficas
Minoli, Daniel; “3DTV Content Capture, Encoding and Transmission”. John Wiley &
Sons; New Jersey; 2010.
Richardson, Iain; “H.264 and MPEG-4 Video compression”. Wiley, Inglaterra, 2003.
ITU-T Recommendation H.264, “Advanced video coding for generic audiovisual
Services” 2010.
BALAŠKO Hrvoje, “Comparison of Compression Algorithms for High Definition and
Super High Definition Video Signals”; Audio Video Consulting Ltd., Karlovačka 36b,
10020 Zagreb, Croatia; 2010.
BOISSON Guillaume, KERBIRIOU Paul y LOPEZ Patrick; THOMSON Research Digest;
“Encoding contents for 3DTV: binocular stereo, 2D+Z and LDV”; IEEE International
Conference on Image Processing (ICIP); 2009.
BONANSEA Lucas; “3D Hand gesture recognition using a ZCam and an SVM-SMO
classifier”; Tesis Iowa State University Ames; Iowa; 2009.
BOURGE Arnaud, GOBERT Jean y BRULS Fons, “MPEG-C Part 3: Enabling the
introduction of video plus depth contents”, Philips Applied Technologie (Suresnes,
France), Philips Research (Eindhoven, The Netherlands), 2006.
CHUANG Tzu-Der, TSUNG Pei-Kuei, LIN Pin-Chih, CHANG Lo-Mei, MA Tsung-Chuan,
CHEN Yi-Hau, CHEN Yu-Han, TSAI Chuan-Yung, y CHEN Liang-Gee; “A 59.5mW
Scalable/Multi-view Video Decoder Chip for Quad/3D Full HDTV and Video Streaming
Applications “;DSP/IC Design Lab, Graduate Institute of Electronics Engineering,
National Taiwan University, Taipei, Taiwan; 2010.
Digital Video Broadcasting (DVB); “Frame Compatible Plano-Stereoscopic 3DTV (DVB-
3DTV)”; DVB Document A154; Febrero 2011.
FEHN Christoph; “Depth-Image-Based Rendering (DIBR), Compression and
Transmission for a New Approach on 3D-TV” Fraunhofer-Institut für
Nachrichtentechnik, Heinrich-Hertz-Institut (HHI); Einsteinufer 37, 10587 Berlin,
Germany; 2004.
FEHN Cristopher; “A 3D-TV System Based On Video Plus Depth Information”;
Fraunhofer-Institut fÄur Nachrichtentechnik, Heinrich-Hertz Institut; 2009.
GARATE Jose Luis, “HD y 3D Situacion y Tendencias”, Grupo ASTRA, Madrid, Octubre
2010.
94
HITACHI, Ltd., PANASONIC Corporation., PHILIPS Consumer Electronics,
INTERNATIONAL B.V., SILICON Image, Inc., SONY Corporation, TECHNICOLOR, S.A.,
TOSHIBA Corporation; “High-Definition Multimedia Interface Specification Version 1.4a
Extraction of 3D Signaling Portion”; 4 Marzo; 2010.
KERBIRIOU Paul, BOISSON Guillaume, SIDIBÉ Korian, HUYNH-THU Quan, “Depth-based
representations: which coding format for 3D Video broadcast applications?;
Technicolor, 3D4YOU Project, 17 Marzo 2011.
LAKIS Christodoulou, LIAM M. Mayron, HARI Kalva, OGE Marques, y BORKO Furht; “3D
TV Using MPEG-2 and H.264 View Coding and Autostereoscopic Displays”; Dept. of
Computer Science and Engineering, Florida Atlantic University, Boca Raton, FL 33431,
Octubre 2006.
LEE Jin Young, WEY Hochen, y PARK Du-Sik; “A Fast and Efficient Multi-View Depth
Image Coding Method Based on Temporal and Inter-View Correlations of Texture
Images”; IEEE; 2011.
MULLER Karsten, “3D Video Formats and Coding Methods”; 3DTV Conference IEEE,
IHH; Alemania; 2010.
NAMHO Hur, HYUN Lee, GWANG Soon Lee, SANG Jin Lee, ATANAS Gotchev, y SANG-Il
Park; “3DTV Broadcasting and Distribution Systems”; IEEE transactions on
broadcasting, VOL. 57, NO. 2, Junio 2011.
OHM Jens-Rainer; “MPEG Developments in Multi-view Video Coding and 3D Video”;
RWTH Aachen University Lehrstuhl und Institut fur Nachrichtentechnik; Alemania
2009.
PEI-KUEI Tsung, LI-FU Ding, WEI-YIN Chen, TZU-DER Chuang, YU-HAN Chen, PAI-HENG
Hsiao, SHAO-YI Chien, y LIANG-GEE Chen; “Video Encoder Design for High-Definition
3D Video Communication Systems”; IEEE Communications Magazine ; Abril 2010.
ROHDE & SCHWARZ; “3D TV test signals in line with the HDMI 1.4a interface
standard”; Broadcasting/Test & Measurement Application Brochure; München
Alemania; 2011.
TAM Wa James, SPERANZA Filippo, YANO Sumio, SHIMONO Koichi, ONO y Hiroshi;
“Stereoscopic 3D-TV: Visual Comfort”; IEEE Transactions on broadcasting, VOL. 57, NO.
2, Junio 2011.
VETRO Anthony, TOURAPIS Alexis M., MÜLLER Karsten, y CHEN Tao; “3D-TV Content
Storage and Transmission”, IEEE Transactions on Broadcasting -- Special Issue on 3D-TV
Horizon: Contents, Systems and Visual Perception, Octubre 2010.
95
MERKLE, P., BRUST, H., DIX,K., MÜLLER, K. and WIEGAND, T.; ”Stereo Video
Compression for Mobile 3D Services”, IEEE Transactions on Broadcasting -- 3DTV
Conference: The True Vision - Capture, Transmission and Display of 3D Video, 2009.
Vetro, A. ; Tourapis, A.M. ; Muller, K. ; Tao Chen; “3D-TV Content Storage and
Transmission”, IEEE Transactions on Broadcasting –2011.
Jonte, J.I., Prieto, I., Fernández, A., Costales, R.; “Estudio Sobre las Necesidades
Tecnológicas en la IPTV y en la TV Móvil”, Ministerio de Comercio, Industria y Turismo.
IPTV and Internet Video – Wes Simpson, Howard Greenfield (2007).
“Manual de Buenas Prácticas Cadena de Recepción”. Grupo de Calidad del Servicio de
Televisión Digital Terrestre. Subdirección General de Infraestructuras y Normativa
Técnica. Marzo 2009.
http://tdtdvb-t.blogspot.com.es/.
The Digital Video Broadcasting Project (DVB) - www.dvb.org.
96
Glosario de Términos
3DTV Three dimensional Television
ADSL Asymmetric Digital Subscriber Line
AVC Advanced Video Coding
CABAC Context-adaptive binary arithmetic coding
CAVLC Context-Adaptive Variable Length
CCD Charged Couple Display
CFC Conventional HD Frame Compatible
COFDM Coded Orthogonal Frequency Division Multiplexing
CSV Conventional Stereo Video
DES Depth Enhanced Video
DVB-T Digital Video Broadcasting- Terrestrial
FEC Forward Error Correction
FHD3D Full HD 3D
FVV Free View-point Video
GOP Group of Picture
HDTV High Definition Television
HHD3D Half HD 3D
L+R Left + Right
LCD Liquid Crystal Display
LDV Layered Depth Video
MVC Multiview Video Coding
MVD Multiview Video Coding + Depth
OCA Optimized Chromatic Anaglyph
PAL Phase Alternating Line
PSNR Peak Signal Noise Ratio
QAM Quadrature Amplitude Modulation
top related