przetwarzanie multimediów - politechnika gdańska · 2016-02-26 · możliwość opisu barwy...

1

Przetwarzanie multimediów

dr inż. Marcin Wilczewski2015/2016

2

Zagadnienia, wykład, laboratorium

Wykład:

Reprezentacja danych multimedialnych na przykładzie obrazów cyfrowych oraz wideo. Metody statystycznego opisu treści.

Przetwarzanie przestrzenne: operacje algebraiczne, operacje na histogramach, przetwarzanie funkcjami kawałkami liniowymi, operacje punktowe.

Kwantyzacja skalarna i wektorowa.

Wprowadzenie do zagadnienia wyszukiwania obiektów cyfrowych ze względu na treść (CBIR). Elementy data mining na przykładzie CBIR.

Operacje kontekstowe na obrazach cyfrowych. Filtracja skalarna obrazów: min, max, medianowa, wygładzająca, wyostrzająca. Filtracja wektorowa.

Metody kompresji obrazów cyfrowych oraz strumieni wideo: kodowanie Huffmanna, metody słownikowe, metody dedykowane, algorytm RLE, standard JPEG.

Wykład kończy się pisemnym zaliczeniem (ostatnie zajęcia w semestrze, 10 punktów).

Literatura:A. Przelaskowski, Kompresja danych obrazowych, BTC, 2005K. Sayood, Kompresja danych. Wprowadzenie, RM, 2002Rafael C. Gonzalez, Richard E. Woods, „Digital Image Processing

Oceny[12,5-14,0] – 3; [14,5-17,0] – 3+; [17,5-20,0] – 4; [20,5,23,0] – 4+; [23,5-25,0] - 5

Laboratorium:Problemy do rozwiązania omawiane na wykładzie. Czas realizacji od 1 do 4 tygodni.Podstawowe narzędzia: środowiska R + PythonMaksymalnie: 15 punktów. Możliwość zdobycia punktów na wykładzie.

3

Obszar zainteresowań wykładu

Dziedziny związane z przetwarzaniem multimediów:

Cyfrowe przetwarzanie obrazów – celem jest wydobywanie lub podkreślanie istotnych informacji

zawartych w obrazie,

Computer vision (widzenie komputerowe)

Cyfrowe przetwarzanie dźwięku - algorytmy kompresji, algorytmy kwantyzacji

Video - algorytmy kompresji, standardy i formaty przetwarzania (zapisu)

4

Barwa – potrzeba obiektywnego opisu

Podstawowym warunkiem zajścia procesu widzenia jest wystąpienie trzech niezbędnych elementów: źródła światła, przedmiotu oraz podmiotu (obserwatora).

Istnieje potrzeba określania barwy w sposób

ścisły

obiektywny

precyzyjny

nadający się do przetwarzania komputerowego

bez konieczności korzystania z wzorników.

W praktyce powstało wiele sposób obiektywnego i numerycznego opisu barw

modele kolorymetryczne: CIE RGB, CIE XYZ, CIE UVW, CIE LUV

modele komputerowe i telewizyjne: RGB, HSV, YCbCR, YUV, YIQ.

5

Cechy barwy

Określenia fizyczne (fizykalne)dominująca długość falizakres spektralny światłanatężenie

W zastosowaniach technicznych opis tego typu jest nieefektywny. Dlaczego?

Określenia percepcyjneodcień barwy (np. czerwony, niebieski, zielony, żółty)nasycenie (np. zielony, seledynowy, oliwkowy, etc.) lub czystość pobudzeniajasność

6

Model RGB

Model RGB stanowi najpopularniejszą reprezentację barw.

Model oparty o trójchromatyczną teorię postrzegania barw, zgodnie z którą wrażenie barwy powstaje wskutek pobudzenia trzech rodzajów czopków o maksimach absorpcji spektralnej dla światła czerwonego, zielonego i niebieskiego.

Bryła barw modelu RGB jest sześcianem w wierzchołkach którego znajdują się barwy podstawowe: czerwona, zielona, niebieska, barwy do nich dopełniające: żółty, niebieskozielony (cyjan), purpura (magenta) oraz czerń (0,0,0) i biel (1,1,1).

Model addytywny – barwy uzyskuje się w drodze mieszania barw podstawowych R, G, B w różnych proporcjach. Brak barw odpowiada czerni.

Zalety: wszystkie barwy pośrednie można reprezentować liniową kombinacją barw podstawowych (wygoda i szybkość obliczeń), odpowiada sposobom generowania barw w urządzeniach typu monitor i telewizor…

Model RGB posiada wady, które powodują, że w wielu zastosowaniach konieczna jest transformacja obrazu RGB do innej przestrzeni barw posiadającej lepsze własności. Podstawowe wady modelu RGB to:

percepcyjna niejednorodność, tzn. słabe korelacje pomiędzy postrzeganą różnicą dwóch barw a ich euklidesową odległością w sześcianie RGB,

nieintuicyjność posługiwania się składowymi R, G i B w określaniu barwy – problem z wizualizacją barwy na podstawie znajomości składowch RGB,

korelacje pomiędzy poszczególnymi składowymi. Istnieją szacunki, że dla obrazów naturalnych korelacje pomiędzy składowymi R i B, R i G oraz G i B wynoszą odpowiednio: 0.78, 0.98 oraz 0.94. Obraz zapisany w formacie RGB jest podatny na kompresję.

wrażliwość wartości składowych na zmiany poziomu oświetlenia (iluminacji) sceny,

jednoczesne operacje wykonywane na wszystkich składowych mogą prowadzić do przekłamania kolorów (np. rozjaśnianie obrazu RGB wymaga ingerencji we wszystkie składowe obrazu).

Rys. (a) – sześcian barw modelu RGB; (b) – nieintuicyjność modelu RGB. Lewa kolumna odpowiada barwom (R,G,B)=(10,200,10..150), prawa kolumna barwom (R,G,B)=(100,200,10..150); (c) – dwa przykładowe kolory, dla których odległość euklidesowa w przestrzeni RGB jest identyczna (d=90) z odległością pomiędzy kolorami w dowolnym wierszu na rysunku (b).

b

a

c

7

Model rgb (unormowany RGB)

Wartości składowych RGB są proporcjonalne do ilości światła padającego na obrazowany obiekt (fragment sceny). Wszystkie lokalne zaburzenia w ilości światła padającego na obiekt spowodowane, dla przykładu zacienieniem, powodują wyraźne zmiany wszystkich składowych obrazu. Jest to niepożądane zjawisko, które może prowadzić do błędów segmentacji prowadzonej na obrazie RGB (lub błędów innego rodzaju).

Prostą operacją uniezależniającą składowe barwy od ilości światła jest proces normalizacji składowych postaci:

w której rezultacie powstają barwy unormowane r, g oraz b spełniające warunek: r+g+b=1 (znajomość dwóch składowych pozwala wyznaczyć trzecią).

Problem osobliwości: R+G+B=0.

Składowe rgb w przeciwieństwie do RGB posiadają pożądaną cechę: ich wartości nie zmieniają się pod wpływem zmiany oświetleniaobiektu (sceny) bez zmiany składu spektralnego światła.

Czy znajomość składowych r, g oraz b wystarcza do jednoznacznego odtworzenia wartości składowych R, G oraz B?

8

Model rgb (unormowany RGB) - ilustracja

Rys. (a) - obraz oryginalny; (b), (c), (d) odpowiednio składowe R, G, B obrazu (a); (e), (f), (g) odpowiednio składowe unormowane r, g, b obrazu (a); (h) oraz (i) wartości pikseli w wierszu 100 dla składowej odpowiednio G oraz g obrazu oryginalnego. Widać stabilność składowych rgb na zmiany poziomu oświetlenia, któremu nie towarzyszy zmiana składu spektralnego światła.

50 100 150 200 250 300 350

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

0 100 200 300 400

0

50

100

150

200

250

300

100 200 300 400

50

100

150

200

250

100 200 300 400

0.4

0.5

0.6

0.7

a

b c d

e f g

h i

9

Model HSV (1)

Model HSV (hue, saturation, value) jest modelem, który nawiązuje do naturalnego sposobu interpretacji i opisu barw za pomocą trzech atrybutów: odcienia (hue), nasycenia (saturation) oraz jasności (intensity, brightness, value). Dwa pierwsze atrybuty związane są z cechą jakościową światła (chromatyczność), trzeci parametr, jasność, jest związany z ilością światła.

Model HSV pozwala rozłożyć wrażenie barwne na trzy składowe, przy czym tylko dwie dotyczą chromatyczności.

Barwy w modelu HSV reprezentowane są jako punkty leżące na oraz w wewnątrz ostrosłupa foremnego o podstawie sześciokąta. Ostrosłup HSV można uzyskać przez transformację sześcianu RGB.

Oś V (value, intensity) przyjmuje wartości z przedziału [0,1] i stanowi oś ostrosłupa. Punkty osi V reprezentują barwy achromatyczne (poziomy szarości od czerni do bieli)

Nasycenie S (saturation) przyjmuje wartości z przedziału [0,1] i jest mierzona jako odległość punkty barwy od osi V. Barwy o maksymalnym nasyceniu odpowiadają barwom świateł monochromatycznych.

Odcień H (hue) przyjmuje wartości z przedziału [0,360] i mierzony jest jako kąt obrotu wokół osi V (przeciwnie do kierunku ruchu wskazówek zegara). Jak zmienia się odcień w przypadku S=0?

Analiza ostrosłupa HSV wskazuje, że maksymalne nasycenie barwy jakie można uzyskać zależy od wartości jasności (ilości światła). Podobny efekt jest wbudowany np. w system barw Munsela. Przecięcie sześcianu płaszczyzną prostopadłą do osi V dla ustalonej wartości V daje możliwe barwy dla danego poziomu jasności. Dla płaszczyzny V=0 jedynym wrażeniem jest czerń.

Rys. Przestrzeń barw modelu HSV.

10

Model HSV (2)

Równania opisujące konwersję pomiędzy modelami RGB oraz HSV w sposób przybliżony odpowiadają psychofizycznemu wrażeniu (odcień, nasycenie, jasność) wywołanemu przez kombinację barw RGB.

Przy założeniu, że R,G,B=[0,1] konwersja modelu RGB do modelu HSV opisana jest równaniami:

Zaproponowano wiele wersji powyższych równań o znacznie mniejszej złożoności obliczeniowej. Przykładem jest równanie na składowąH, które nie zawiera funkcji trygonometrycznych:

Implementując powyższe równania należy zwrócić uwagę na osobliwości! (np. dla barw achromatycznych) oraz na fakt, że zmienna jest wartością kątową wyrażoną w stopniach (nie radianach).

11

Model HSV (3) - ilustracja

Rys. (a) – sześcian RGB; obrazy (b), (c) i (d) to obrazy odpowiednio H, S oraz V obrazu oryginalnego wyrażonego w modelu HSV.Obraz (e) jest obrazem składowej H obrazu oryginalnego (a) silnie skompresowanego algorytmem JPEG.

a b

c d

50 100 150 200 250

50

100

150

200

250

0 50 100 150 200 250 300

0

50

100

150

200

250

0 50 100 150 200 250 300

0

50

100

150

200

250

0 50 100 150 200 250 300

0

50

100

150

200

250

0 50 100 150 200 250 300

0

50

100

150

200

250

e

12

Obraz w składowych RGB…

Rys. Obraz RGB. Na następnym slajdzie przedstawiona jest wersja HSV obrazu.

ba

c d

13

…Model HSV (4) - ilustracja

Rys. (a) – obraz oryginalny oraz odpowiednio jego składowe H, S, V w modelu HSV.Obraz (e) stanowi pokolorowaną wersję obrazu składowej H (obrazu (b)).

Obrazy (b) oraz (e) wskazują na wyraźne rozseparowanie obszarów o różnym odcieniu co podkreśla istnienie obiektów na jednolitym tle.

ba

dc e

14

Model HSV (5) – przykład segmentacji

ba

dc

Rys. Przykład segmentacji przez kwantyzację składowej H obrazu w modelu HSV.

(a) – obraz oryginalny; (b)-(d) obrazy powstałe po kwantyzacji odcienia do odpowiednio 6, 4 oraz 3 poziomów.

15

Model HSV (6)

Zalety modelu HSV:

Naturalność i zgodność ze sposobem opisu barw przez człowieka.

Separacja wielkości opisujących wrażenia chromatyczne od achromatycznych (HS oraz V). Dla przykładu, wykonanie operacji rozjaśnienia obrazu RGB wymaga modyfikacji wszystkich trzech składowych. Ta sama operacja w obrazie po konwersji do przestrzeni HSV wymagamodyfikacji tylko składowej V. Podobnie w przypadku modyfikacji nasycenia i odcienia.

Możliwość opisu barwy poprzez tylko dwie składowe: H oraz S. Ta cecha pozwala wykorzystywać model HSV w zastosowaniach do rozpoznawania obiektów na podstawie koloru (barwy) niezależnie od zmian jasności (podobnie jak model rgb).

Pozwala zdefiniować efektywne miary w przestrzeni obrazu. Przykładem miar może być liczba unikalnych kolorów mierzonych jako liczba odcieni, nasycenie pikseli (pixel saturation) jako stosunek liczby pikseli o maksymalnym nasyceniu do liczby pikseli nienasyconych oraz często stosowana miara odległości na histogramach HSV.

Wady modelu HSV:Istnienie osobliwości w równaniach konwersji RGB do HSV: osobliwość H dla wszystkich barw achromatycznych oraz osobliwość S dla

czerni (R=G=B=0),Percepcyjna niejednorodność pomimo zorientowania modelu na intuicyjność.

Przykłady wykorzystania modelu HSV w przemyśle i technice:

identyfikacja obiektów kodowanych barwą,

sortowanie i klasyfikacja owoców i warzyw…

rozpoznawanie znaków drogowych.

przetwarzanie multimediów - politechnika gdańska · 2016-02-26 · możliwość opisu barwy...

Documents