learning to compress images and videos - ke.tu-darmstadt.de · 2 motivation bild &...
TRANSCRIPT
![Page 1: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/1.jpg)
1
Learning to CompressImages and Videos
von Li Cheng &S.V. N. Vishwanathan
vorgetragen von Michael Wächter
![Page 2: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/2.jpg)
2
Motivation● Bild & VideoKompression
– herkömmliche Verfahren sind frequenzbasiert– Aufsatz auf herkömmlichen Verfahren– zusätzlicher Platzgewinn ohne Qualitätsverlust
● SWBild & SWVideoKolorierung– herkömmliche Verfahren zeitaufwändig und manuell– jetzt semiautomatisch
![Page 3: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/3.jpg)
3
Motivation
● BildKompression– Auswahl repräsentativer Pixel– Lernen eines FarbvorhersageModells– Speichern des SWBilds + Farbpixel– Rekonstruktion des Farbbilds
● VideoKompression analog
![Page 4: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/4.jpg)
4
Motivation
● SWBild & SWVideoKolorierung– wie Kompression– automatische Pixelauswahl fällt weg– Farbinfos werden stattdessen vom Benutzer
vorgegeben
![Page 5: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/5.jpg)
5
Überblick● Motivation● Begriffsklärung● Funktionsweise
– Kolorierung mit SemiSupervised Learning– Farbpixelauswahl mit Active Learning
● Experimente● Fazit● Bemerkungen
![Page 6: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/6.jpg)
6
Begriffsklärung● SemiSupervised Learning
● Graphbasierte Methoden:– Beispiele als Knoten (gelabelte und ungelabelte)– Nachbarschaftsbeziehungen als Kanten
● Achtung: Glattheitseigenschaften
X BeobachtungsraumY ⊂ℝ Labelraum{x i , y i }i=1
m gelabelte Beispiele
{x i }i=m1n
⊂X ungelabelte Beispielef ∈H zuminimierende Zielfunktionl : X x Y x H ℝ Loss−Funktion
![Page 7: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/7.jpg)
7
Begriffsklärung● Graph
– ungerichtet, gewichtet● AdjazenzMatrix
● GradMatrix
G=V ,E⊆V xV
WmitW ij∈0,∞ falls v i , v j∈EundW ij=0sonst
Dmit Dii=∑j
W ij
![Page 8: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/8.jpg)
8
Begriffsklärung
● LaplaceMatrix
● normalisierte LaplaceMatrix
L=D−W
=D−1/2LD−1/2
![Page 9: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/9.jpg)
9
Funktionsweise Kolorierung
– Kantengewichte:● räumliche Nachbarschaft und Bildtextur● rationale Funktion 2. Grades bzgl. Helligkeitsdifferenz● ggf. zeitliche Nachbarschaft
minimiere∑i=1
n
[f x i −∑i~ j
w ij f x j ]2∑i=1
m
l f x i , y i
l f x i , y i =0 falls f x i =y i und ∞ sonstoderl f x i , y i =f x i −y i
2
∀ i : w ij0und∑i~ j
w ij=1
![Page 10: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/10.jpg)
10
Funktionsweise Kolorierung
● Laplacian Regularized Least Square algorithm:
minimiere J f =c∥f ∥H2
n2∥f ∥G
2 1m ∑
i=1
m
l x i , y i , f
mit f =[f x 1 ,... , f x m , ... , f x n ] ,
∥f ∥G2=f T ∇G f =f
T L2 f oder f T f
![Page 11: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/11.jpg)
11
Funktionsweise Kolorierung
● Lösung von LapRLS:es existieren i so ,dass f x =∑
i=1
n
i k x i , x
=I mK cmI mn2
∇gK −1
y
mit =1 , ... ,m , ... ,n T ,
I m∈ℝn ,n mit mxm−Einheitsmatrix links oben und 0sonst ,
K mit K ij=k x i , x j ,
∇G=L2oder
und y =y 1 , ... , y m ,0 , ... ,0T
![Page 12: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/12.jpg)
12
Funktionsweise Kolorierung● Implementationsdetails:
– YUVFarbraum, Vorhersage von U und V getrennt– Kernel: standard Gaussian kernel (mit Parameter σ)– Mean Square Loss statt ∂Loss– ∆ statt L²– keine zeitliche Nachbarschaft!– Problem: Matrixinvertierung
● Matrix zur Berechnung von α groß und dicht
● Berechnung einer SuperPixelRepräsentation des Ausgangsbilds ==> 10005000 Segmente
![Page 13: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/13.jpg)
13
Funktionsweise Pixelauswahl● automatische Pixelauswahl wird für Handkoloration
abgeschaltet● ansonsten per Active Learning:
– Lerner wählt Beispiele aus und fragt nach Labels– muss dafür Kosten bezahlen (hier: Speicherplatz)
● Programmablauf:– Start mit ein paar zufälligen gelabelten Pixeln– Lernen des Modells
![Page 14: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/14.jpg)
14
Funktionsweise Pixelauswahl– Bild wird mit Modell vorhergesagt und mit Zielbild
verglichen– Qualitätsmaß:
– Fehlerbereiche werden geclustert– aus jedem Fehlercluster wird ein Pixel gewählt, seine
Farbinfo abgefragt und der Labelmenge hinzugefügt– Abbruchkriterium:
● PSNR=38 oder 5000 abgefragte Pixel● außerdem möglich: PSNR in einem Plateau
PSNR=20log10255
MSE
MSE=1n2 ∑
i , j=1
n
I ij−I 'ij2
![Page 15: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/15.jpg)
15
Experimente● SWBildKolorierung
![Page 16: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/16.jpg)
16
Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl
![Page 17: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/17.jpg)
17
Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl
![Page 18: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/18.jpg)
18
Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl
![Page 19: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/19.jpg)
19
Experimente● Ergebnis Bienen:
– Active Learning● PSNR = 31.49● 2534 Pixel● 7 Iterationen
– manuell● PSNR = 27.00● 8558 Pixel
![Page 20: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/20.jpg)
20
Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl
![Page 21: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/21.jpg)
21
Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl
![Page 22: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/22.jpg)
22
Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl
![Page 23: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/23.jpg)
23
Experimente● Ergebnis Mädchen:
– Active Learning● PSNR = 40.95● 2766 Pixel● 17 Iterationen
– zufällig● PSNR = 38.41● 2976 Pixel
![Page 24: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/24.jpg)
24
Experimente
● Kompressionsraten:– Bienen: 0.754– Mädchen: 0.781
![Page 25: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/25.jpg)
25
Experimente
● Videokolorierung
![Page 26: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/26.jpg)
26
Experimente● Videokompression
![Page 27: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/27.jpg)
27
Experimente● Videokompression
![Page 28: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/28.jpg)
28
Experimente
● Kompressionsrate 0.899– Berechnung allerdings unrealistisch, realistischer sind
eher 0.925
![Page 29: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/29.jpg)
29
Fazit● optisch ansprechende kolorierte Bilder und Videos● Kompression mit guten Kompressionsraten als Aufsatz
auf herkömmliche Verfahren● Videokompression streamingfähig● mögliche Verbesserung:
– „Vergessen“ von Labels ==> selber PSNR bei niedrigeren Kosten
– Beweis von performance boundaries
![Page 30: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/30.jpg)
30
Bemerkungen
● weitere Verbesserungsmöglichkeiten:– evtl. Verwendung von spezialisierten SW
Kompressionsverfahren● nach welchen Kriterien wurden die Bilder und Videos
der Experimente ausgewählt?– „nonstationary video sequences“
● evtl. muss α auch gespeichert werden
![Page 31: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/31.jpg)
31
Vielen Dank für Ihre Aufmerksamkeit!
![Page 32: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen](https://reader030.vdocuments.pub/reader030/viewer/2022040311/5d60576a88c9930d758bdeda/html5/thumbnails/32.jpg)
32
Quellen
● sämtliche Bilder entstammen der Seite http://sml.nicta.com.au/~licheng/LearnCompressImgVid/LearnCompressImgVid.html oder dem Artikel „Learning to Compress Images and Videos“, welcher auch auf dieser Seite zu finden ist.