seminar large scale processing for multimedia analysis - themenvorstellung

76
Themen LSP4MAT Seminar Dr. Harald Sack / Dr. Peter Tröger Jörg Waitelonis / Magnus Knuth / Christian Hentschel Bernhard Quehl / Haojin Yang Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2011/2012 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). 1

Upload: harald-sack

Post on 24-May-2015

588 views

Category:

Technology


2 download

DESCRIPTION

Folien zum Masterseminar 'Large Scale Processing for Multimedia Analysis', Themenvorstellungen

TRANSCRIPT

Page 1: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

ThemenLSP4MAT

SeminarDr. Harald Sack / Dr. Peter Tröger

Jörg Waitelonis / Magnus Knuth / Christian HentschelBernhard Quehl / Haojin Yang

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Wintersemester 2011/2012

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).

1

Page 2: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

2

LSP4MAT

1. Einführung und Überblick2. Seminar Themen3. Administratives

2

Page 3: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

3

LSP4MATLarge Scale Processing for Multimedia Analysis

Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos

AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses

Ergebnis

Das serielle Prinzip

3

Page 4: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

3

LSP4MATLarge Scale Processing for Multimedia Analysis

Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos

AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses

Ergebnis

Das serielle Prinzip

HardCut Detectiondiffi = ∑(framei) - ∑(framei+1) diffi > threshold

?yes/no

3

Page 5: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

3

LSP4MATLarge Scale Processing for Multimedia Analysis

Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos

AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses

Ergebnis

Das serielle Prinzip

HardCut Detectiondiffi = ∑(framei) - ∑(framei+1) diffi > threshold

?yes/no

Object Detectionsifti = SIFT(framei) isObject(sifti) yes/no

Scale Invariant Feature Transform trainierter Klassifikator

3

Page 6: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

4

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Bedingungen

mehr als 10.000 Videos(zum Teil in HD Formaten)

- DVCPRO Codec (50/100Mbit/s)- 22GB/h bzw. 44GB/h

komplexer Workflowmit unterschiedlichen Abhängigkeiten

mehrere Maschinen mit je mehreren Kernen

FutureSOC: - bis 48 CPUs, - 256-2048 GB RAM

2 Projekt Rechner - je 16 CPUs - ca. 100GB RAM - ca. 30TB HDD

4

Page 7: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

5

Page 8: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

Möglichkeiten?

5

Page 9: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel

Möglichkeiten?

5

Page 10: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel

also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)

Möglichkeiten?

5

Page 11: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel

Sehr vereinfacht!

Dazu nächste Woche mehr.

also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)

Möglichkeiten?

5

Page 12: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.

2. Ein Video so schnell es geht prozessieren.

(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel

Sehr vereinfacht!

Dazu nächste Woche mehr.

also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)

Möglichkeiten?Granularität?

5

Page 13: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

6

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

Welche Granularität ist optimal für:

(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?

6

Page 14: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

6

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

Welche Granularität ist optimal für:

(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?

Tradeoff

6

Page 15: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

6

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

Welche Granularität ist optimal für:

(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?

Zeit zum Verteilen vs. Zeit zum Verarbeiten

Tradeoff

6

Page 16: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

6

LSP4MATLarge Scale Processing for Multimedia Analysis

Die Herausforderung

Welche Granularität ist optimal für:

(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?

Sehr vereinfacht!

Dazu nächste Woche mehr.

Zeit zum Verteilen vs. Zeit zum Verarbeiten

Tradeoff

6

Page 17: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

7

Page 18: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

7

Page 19: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

7

Page 20: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

Ermittlungen nachBombenfunden

Text Identification

Pipeline

7

Page 21: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

Ermittlungen nachBombenfunden

Text Identification

Pipeline

Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades

7

Page 22: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

Ermittlungen nachBombenfunden

Text Identification

Pipeline

Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades

Visual Concept Detection

7

Page 23: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

Ermittlungen nachBombenfunden

Text Identification

Pipeline

Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades

Visual Concept DetectionMahout Distributed Machine Learning

7

Page 24: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

7

LSP4MATLarge Scale Processing for Multimedia Analysis

VideoVideoVideo Basis Feature Extraction

Jobs

Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...

Face Detection

Face Tracking (Clustering)

Ermittlungen nachBombenfunden

Text Identification

Pipeline

Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades

Visual Concept DetectionMahout Distributed Machine Learning

1

2

3

4

5

6

7

Page 25: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

8

LSP4MAT

1. Einführung und Überblick2. Seminar Themen3. Administratives

8

Page 26: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

Eingabe:■ Verzeichnis mit n Videos

Ausgabe:■ pro Video ein Verzeichnis mit Einzelbildern■ zu jedem Einzelbild serialisierte Features (z.B. als XML)□ Farbraumhistogramme: RGB, Gray, HSV, YUV, ...□ Kantenbilder: Sobel, Canny, Laplace, ...□ Entropie□ SIFT□ uvm.

9

LSP4MAT1. Thema: Basisfeature Extraction

1

9

Page 27: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

Aspekte, die analysiert werden können:■ Wie kann ein Videos parallel eingelesen und weiterverarbeitet werden?■ Wo sind die Bottlenecks bzgl. IO, CPU, Memory?■ Wie könnte man die einzelnen Feature-Algorithmen parallelisieren?

10

LSP4MAT1. Thema: Basisfeature Extraction

1

10

Page 28: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

Literatur und Referenzen11

LSP4MAT1. Thema: Basisfeature Extraction

1

Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

Rafael C. Gonzalez ; Richard E. Woods : Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001

http://ffmpeg.org

11

Page 29: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

12

LSP4MAT2. Thema: Face-Detection und Tracking

3 Studenten

Face Detection

Face Tracking (Clustering)

Thema 2: Face-Detection und Tracking(1) Aus einer gegebenen Menge von n Bildern Gesichter extrahieren (mit OpenCV).(2) aus den Gesichtern Features extrahieren(3) die Featurevektoren Clustern

2

12

Page 30: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

13

LSP4MAT2. Thema: Face-Detection und Tracking

Eingabe:■ n Bilder mit und ohne Gesichter

Ausgabe: ■ Zuordnung: Bild - Cluster ■ Also: die Information, welches Bild ein Gesicht eines Clusters enthält.

■ Idealerweise ist dies die Person, die diesen Cluster repräsentiert.

2

13

Page 31: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

14

LSP4MAT2. Thema: Face-Detection und Tracking

■ Aktuell basiert das Verfahren auf einer seriellen Verarbeitung:□ Erst werden alle Gesichter extrahiert, dann alle Features extrahiert und

anschließend geclustert, etc.

■ Zu erreichen sind:□ Gesichter parallel detektieren (mehrer Bilder gleichzeitig bearbeiten)□ Features parallel extrahieren□ das Clustering parallelisieren:

□ aktuell kombiniertes Verfahren aus EM-Clustering und k-Means-Clustering□ diese Verfahren müssen parallelisiert werden, oder eine parallelisierte

Alternative erarbeitet werden

2

14

Page 32: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

15

LSP4MAT2. Thema: Face-Detection und Tracking

2Literatur und Referenzen

Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

Rafael C. Gonzalez ; Richard E. Woods : Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001

Thomas Mitchell. Machine Learning. Mcgraw-Hill Higher Education, 1997.

15

Page 33: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

16

LSP4MAT3. Thema: Text-Lokalisierung

Thema 3: Text-Lokalisierung(1) Text innerhalb eines Bildes finden.(2) Schneller als Echtzeit, d.h. in weniger als 1/25 Sekunden

Ermittlungen nachBombenfunden

Text Identification

Pipeline

3

16

Page 34: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

17

LSP4MAT3. Thema: Text-Lokalisierung

Eingabe:■ Luminanzkanal von n Bilder

Ausgabe:■ pro Bild einer Liste von Textboxen (BoundingBoxes)

Alpine Alpine AlpineAlpine

Eingabe Textlokalisation (Luminanz Image)

Luminanz

Chrominanz (blue)

Chrominanz (red)Ausgabe Textbox

[x,y,width,height]

3

17

Page 35: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

18

LSP4MAT3. Thema: Text-Lokalisierung

Idee:■ welche Bilder in dem Video enthalten Text■ in welcher Bildregion befindet sich der Text

Featu

re Ex

tracti

on

Analyse der Features

Bestimmen der Bildregion

LSP4MAT3. Thema: Text-Lokalisierung

3

18

Page 36: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

19

LSP4MAT3. Thema: Text-Lokalisierung

Workflow Prinzip■ 1. First, a vertical edge map is produced using Sobel filter

■ 2. Morphological dilation operation is adopted to link the vertical character edges together

■ 3. A binary mask is generated

■ 4. Create a binary map after Connected Component analyse

■ 5. binary map after the adaptive projection profile refinement

���������������� � ������������������ ����������������������

�������������������� �����������������������������������

������������������������������������������������������������

Fig. 1. Workflow of the proposed text detection method. (b) is the vertical edge map of (a). (c) is the vertical dilation map of(b). (d) is the binary map of (c). (e) the result map of subsequent connected component analysis. (f) shows the binary map afterthe adaptive projection profile refinement. (g) is the final detection result.

for text detection of nature scene images. The operator com-putes for each pixel the width of the most likely stroke con-taining the pixel. The output of the operator is a stroke-featuremap, which has the same size as the input image, while eachpixel represents the corresponding stroke width value of theinput image.

3. TEXT DETECTION IN VIDEO IMAGES

Text detection is the first task of Video OCR. Our approachdetermines, whether a single frame of a video file containstext lines, for which a tight bounding box is returned. In or-der to manage detected text lines efficiently, we have defined aclass ”text line object” with the following properties: bound-ing box location (the top-left corner position), bounding boxsize. After the first round of text detection, the refinement andthe verification procedures ensure the validity of the detectionresults in order to reduce false alarms.

3.1. Text detector

Before performing the text detection process, a gaussiansmooth filter is applied to the images that have an entropyvalue larger than a predefined threshold Tentr . For our pur-pose, Tentr =5.25 has proven to be to the best advantage.

We have developed an edge based text detector, subse-quently referred to edge text detector. The advantage of ourdetector is its computational efficiency compared to other ma-chine learning based approaches, because no computation-ally expensive training period is required. However, for vi-sually different video sequences a parameter adaption has tobe performed. The best suited parameter combination of ourmethod were learned from the test runs on the given test data.

Fig. 2. Workflow of the proposed adaptive text line refinementprocedure

The processing workflow for a single frame is depictedin Fig. 1 (a-e). First, a vertical edge map is produced usingSobel filter [8] (cf. Fig. 1 (b)). Then, the morphological dila-tion operation is adopted to link the vertical character edgestogether (cf. Fig. 1 (c)). Let MinW denote the detected min-imal text line width. A rectangle kernel:1�MinW is definedfor vertical dilation operator. Subsequently, a binary maskis generated by using Otsu’s thresholding method [9]. Ulti-mately, we create a binary map after Connected Component

3

19

Page 37: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

20

LSP4MAT3. Thema: Text-Lokalisierung

Literatur und Referenzen

Bradski, G.; Kaehler, A.: Learning OpenCV. Beijing : O'Reilly, 2008

Rafael C. Gonzalez ; Richard E. Woods: Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001

Haojin Yang, Bernhard Quehl, Harald Sack: Text detection in video images using adaptive edge detection and stroke width verification, International Conference On Systems,Signals And Image Processing, Vienna, 2012 (submitted)

3

20

Page 38: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

21

LSP4MAT4. Thema: Scene-Cut-Detection

Thema 4: Scene-Cut-Detection

(1) Parallelisieren der Feature Extraction für Scene-Cut- und Shot-Detection4

21

Page 39: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

21

LSP4MAT4. Thema: Scene-Cut-Detection

Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades

Thema 4: Scene-Cut-Detection

(1) Parallelisieren der Feature Extraction für Scene-Cut- und Shot-Detection4

21

Page 40: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Eingabe: ■ n Videos

Ausgabe:■ Liste von Schnitten mit Index, Frame Position im Videodatenstrom, Dauer des

Schnittes und Schnitttype

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

224

Index Frame number

Cut duration Cut type

79 85810 0 HardCut

80 88688 53 SoftCut

81 7896 2 DropOut

82 32592 18 FadeOut

83 124140 36 Whipe

LSP4MAT4. Thema: Scene-Cut-Detection

22

Page 41: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 42: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 43: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

frames

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 44: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

frames

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 45: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

frames

subshots

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 46: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

frames

subshots

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 47: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich

kohärente Abschnitte (Segmente)

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

23

3 Studenten

4

video

scenes

frames

subshots

shots

LSP4MAT4. Thema: Scene-Cut-Detection

23

Page 48: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

244 Shot Boundary Detection

Identification of

• Hard Cuts• Drop Outs• Soft Cuts, as e.g., Dissolve, Wipe, Cross-Fade, etc.

Analytical Shot Boundary Detection

• Analysis of Luminance/Chrominance Histograms• Analysis of Edge Distribution• Analysis of Motion Vectors

Machine Learning

• Classification of Hard/Soft Cuts based on Image Features• K-Nearest Neighbor• Random Forrest • Support Vector Machines

LSP4MAT4. Thema: Scene-Cut-Detection

24

Page 49: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

25

Aspekte: ■ Bottleneck Feature Extraction:■ Histogramm / Pixel Differenzen

aufeinanderfolgender Frames

■ Wie kann das Partitionieren der Daten möglichst schnell erfolgen?

■ Wie können die Grenzen zwischen den Partitionen behandelt werden?

4

LSP4MAT4. Thema: Scene-Cut-Detection

25

Page 50: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

26 Algorithmus:

■ Feature Extraction:■ Histogramm / Pixel Differenzen

extrahieren

■ Differenzen sortieren■ Threshold bestimmen ■ Differenzenanstieg bestimmen und mit th (45°)

vergleichen■ Anstieg > th = HardCut

4

LSP4MAT4. Thema: Scene-Cut-Detection

26

Page 51: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

27 Literatur und Referenzen4

1. Lienhart, R. W. (1998). Comparison of automatic shot boundary detection algorithms. Proceedings of SPIE, 3656(SPIE 3656), 290-301. Spie.

2. Yuan, J., Wang, H., Xiao, L., Zheng, W., Li, J., Lin, F., & Zhang, B. (2007). A Formal Study of Shot Boundary Detection. IEEE Transactions on Circuits and Systems for Video Technology, 17(2), 168-186.

3. Boreczky, J. S. (1996). Comparison of video shot boundary detection techniques. Journal of Electronic Imaging, 5(2), 122.

4. Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack and Christoph Meinel, (2011) Automatic Lecture Video Indexing Using Video OCR Technology IEEE Int. Symposium on Multimedia 2011 ISM , Dana Point, CA, USA, 5-7.

LSP4MAT4. Thema: Scene-Cut-Detection

27

Page 52: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT5. Thema: Visual Concept Detection

Thema 5: Visual Concept Detection

(1) Implementieren des ‘Bag of Words’ Ansatzes zur generischen Klassifikation visueller Daten (OpenCV, libSVM)(2) Die einzelnen Arbeitsschritte sollen parallelisiert werden (dazu gleich mehr...)■ Low-level Feature Extraction■ BoW Feature Aggregation■ Training■ Classification

285

28

Page 53: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

29 Eingabe:■ n Bilder:□ Ground Truth (Trainings- und Testdaten)□ Pascal VOC 2010 (Visual Object Challenge) http://pascallin.ecs.soton.ac.uk/

challenges/VOC/voc2010/Ausgabe:■ Kassifikationsergebnis, z.B. Bild zeigt Auto

Aufgabe: Parallelisierung der einzelnen Schritte■ Feature Extraktion■ Codebook Generierung■ BoW Generierung■ Training + Klassifikation

5

LSP4MAT5. Thema: Visual Concept Detection

29

Page 54: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

30 Motivation:

■One Feature to Rule Them All!

■Gibt ein Merkmal, mit dem sich generisch beliebige visuelle Konzepte lernen lassen?

- Partylife- Family_Friends- Beach_Holidays- Building_Sights- Snow- Citylife- Landscape_Nature- Sports- Desert- Spring- Summer- Autumn- Winter- Indoor- Outdoor- Plants- Flowers- Trees- Sky- Clouds- Water- Lake- River

- Sea- Mountains- Day- Night- Sunny- Sunset_Sunrise- Still_Life- Macro- Portrait- Overexposed- Underexposed- Neutral_Illumination- Motion_Blur- Out_of_focus- Partly_Blurred- No_Blur- Single_Person- Small_Group- Big_Group- No_Persons- Animals- Food- Vehicle

- Aesthetic_Impression- Overall_Quality- Fancy- Architecture- Street- Church- Bridge- Park_Garden- Rain- Toy- MusicalInstrument- Shadow- bodypart- Travel- Work- Birthday- Visual_Arts- Graffiti- Painting- artificial- natural- technical- ...

5

LSP4MAT5. Thema: Visual Concept Detection

30

Page 55: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

■ Textdokument Repräsentation mit Bag of Words (BoW)-Model■ “John likes to watch movies. Mary likes too.”

■ “John also likes to watch football games.”

■ dictionary/codeword vocabulary={1:"John", 2:"like", 3:"watch", 4:"movie", 5:"football", 6:"games", 7:"Mary"}

■ BoW-Feature Vectors:

- [1, 2, 1, 1, 0, 0, 1]- [1, 1, 1, 0, 1, 1, 0]

■ Bildrepräsentation??

■Was sind Wörter?■Was sind relevante Wörter?

➡ Bag of Visual Words

315

LSP4MAT5. Thema: Visual Concept Detection

31

Page 56: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

■ Textdokument Repräsentation mit Bag of Words (BoW)-Model■ “John likes to watch movies. Mary likes too.”

■ “John also likes to watch football games.”

■ dictionary/codeword vocabulary={1:"John", 2:"like", 3:"watch", 4:"movie", 5:"football", 6:"games", 7:"Mary"}

■ BoW-Feature Vectors:

- [1, 2, 1, 1, 0, 0, 1]- [1, 1, 1, 0, 1, 1, 0]

■ Bildrepräsentation??

■Was sind Wörter?■Was sind relevante Wörter?

➡ Bag of Visual Words

315

LSP4MAT5. Thema: Visual Concept Detection

31

Page 57: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

325

LSP4MAT5. Thema: Visual Concept Detection

32

Page 58: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

335

LSP4MAT5. Thema: Visual Concept Detection

33

Page 59: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

345

LSP4MAT5. Thema: Visual Concept Detection

34

Page 60: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

5.) Klassifikation355

LSP4MAT5. Thema: Visual Concept Detection

35

Page 61: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

36

1. E. Mbanya, C. Hentschel, S. Gerke, M.Liu, A. Nuernberger, and P. Ndjiki-Nya. Augmenting bag-of-words - category specific features and concept reasoning. CLEF Notebook Papers/LABs/Workshops, 2010.

2. K.E.a. van de Sande, T. Gevers, and C. G.M. Snoek. A comparison of color features for visual concept classification. Proceedings of the 2008 international conference on Content-based image and video retrieval - CIVR '08, page 141, 2008.

3. D. G. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60(2):91-110, November 2004.

4. G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, and D. Maupertuis. Visual Categorization with Bags of Keypoints. In Workshop on Statistical Learning in Computer Vision, ECCV, pages 1-22, 2004.

5. J. Sivic and A. Zisserman. Video google: a text retrieval approach to object matching in videos. In Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, pages 1470-1477, April 2003.

6. C. G. M. Snoek and M. Worring. Concept-Based Video Retrieval. Foundations and Trends in Information Retrieval, 2(4):215-322, 2009

5Literatur und Referenzen

LSP4MAT5. Thema: Visual Concept Detection

36

Page 62: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

37 Thema 6: Maschinelles Lernen mit Mahout

(1) Mahout Framework zum parallelisierten Lösen verschiedener Machine Learning Aufgaben mit gegebenen Feature-Vektoren verwenden.(2) Implementieren eines parallelen SVM Algorithmus ■ Mahout unterstützt aktuell keine SVMs

(3) Bottleneckanalyse bzgl. Distanzberechnung auf hochdimensionalen Vektorräumen

6

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

37

Page 63: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

37 Thema 6: Maschinelles Lernen mit Mahout

(1) Mahout Framework zum parallelisierten Lösen verschiedener Machine Learning Aufgaben mit gegebenen Feature-Vektoren verwenden.(2) Implementieren eines parallelen SVM Algorithmus ■ Mahout unterstützt aktuell keine SVMs

(3) Bottleneckanalyse bzgl. Distanzberechnung auf hochdimensionalen Vektorräumen

6

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Mahout Distributed Machine Learning

37

Page 64: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

38

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

4 Studenten

6

The Apache Mahout™ machine learning library's goal is to

build scalable machine learning librariesMahout currently has

• Collaborative Filtering• User and Item based recommenders• K-Means, Fuzzy K-Means clustering• Mean Shift clustering• Dirichlet process clustering• Latent Dirichlet Allocation• Singular value decomposition• Parallel Frequent Pattern mining• Complementary Naive Bayes classifier• Random forest decision tree based classifier• High performance java collections (previously colt collections)• A vibrant community• and many more cool stuff to come by this summer thanks to Google summer of code

38

Page 65: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

39

Eingabe:■ Merkmalsdeskriptoren□ Bag-of-Words, Faces-Features, Scene-Cute-Features, ...□ Trainings- und Testsets□ Klassifikationsergebnisse für Trainingsset□ Ground Truth/Klassenzugehörigkeit der einzelnen Merkmale

Ausgabe:■ Klassifikationsergebnisse für Testset■ Evaluation, ggf. Cross-Validierung

6

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

39

Page 66: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

40

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Wie können Maschinen lernen zu lernen?■ Lernen:

induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren■Unüberwacht (unsupervised):

Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mithilfe von Clustering)■Überwacht (supervised):

Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation

4 Studenten

6

40

Page 67: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Unsupervised■ z.B. k-Means■ “Finde ein gute Partitionierung eines

Datenraums anhand von gegebenen Instanzen.”

■ Gesucht: Zuordnung der Instanzen zu Gruppen (Clustern)

■ Abstand zwischen Clusterzentren (Prototyp) und zugeordneten Instanzen soll minimal sein

■ Fragen:□ Wie viele Cluster sollen gesucht

werden?□ Was bedeutet minimal

(Distanzfunktion)

41

Background

K-means Theory

Mixtures

Illustration

Buntine K-Means

6

41

Page 68: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

42 Supervised:

■ Formale Definition:

■ Y= f(X)

■mit Y = {-1,+1} und X = {Daten}

■ Ziel: Finde f

■Unter Verwendung von vorklassifizierten Trainingsdaten repräsentiert über geeignete Merkmale

■ Verfahren:

■ Extrahieren geeigneter Merkmale (Features)

■ (Selektion/Reduktion geeigneter Features)

■ Training (Finde f)

6

42

Page 69: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Einige bekannte Vertreter:

K-Nearest Neighbor (k-NN)■ Stimmenmehrheit der k ähnlichsten Instanzen;

Alternativ: Abstandsgewichtung■ einer Instanz wird die Klasse/Kategorie/Label

der nächsten Nachbarn zugeordnet■ Fragen:□ Was ist das Ähnlichkeits-/Abstandsmaß?□ Klassifikator ist für den Fall, dass es

mehrere nä. Nachbanr gibt nicht eindeutig definiert

43

Harald Sack, Hasso-Plattner-Institute for IT-Systems Engineering, Workshop Medienanalyse, TIB, 13.10.2011

• K-Nearest-Neighbor• Stimmenmehrheit der k ähnlichsten

Beispiele

• Linear Discriminant Analysis (LDA)• Minimiert Intra-Klassen Varianz und

maximiert Distanz (”Unähnlichkeit”)

zwischen zwei Klassen

Algorithmen zur Klassifikation

Donnerstag, 13. Oktober 11

6

43

Page 70: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Random Forests (Supervised)■ Klassifikationsverfahren, bestehend aus mehreren Entscheidungsbäumen besteht■ Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung (Tife ,

Anzahl der Features, Menge der Features...) gewachsen■ Klassifikation durch Mehrheitsentscheidung der einzelnen Bäume

Entscheidungsbaum Beispiel :■ Vorhersage, ob ein Apfelbaum Früchte tragen wird

446

44

Page 71: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

LSP4MAT4. Thema: Maschinelles Lernen mit Mahout

Support Vector Machines (SVM)

■ Large Margin Optimizer: Generalisierbarkeit

■Nicht-lineare Probleme können gelöst werden

456

45

Page 72: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

46

LSP4MAT4. Thema: Training von Klassifikatoren mit Mahout

1. Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer New York, 2007.

2. Thomas Mitchell. Machine Learning. Mcgraw-Hill Higher Education, 1997.

3. G. Rätsch. A Brief Introduction into Machine Learning.

4. E. Yom-Tov. An Introduction to Pattern Classification. Advanced Lectures on Machine Learning, Springer Berlin / Heidelberg, 2004.

5. Apache Mahout: http://mahout.apache.org/

6. C.T. Chu, S.K. Kim, Yi A. Lin, Y. Yu, G. R. Bradski, A. Y. Ng, and K. Olukotun. Map-Reduce for machine learning on multicore. In Bernhard Schölkopf, John C. Platt, and Thomas Hoffman, editors, NIPS, pages 281–288. MIT Press, 2006.

6Literatur und Referenzen

46

Page 73: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

471. Einführung und Überblick2. Seminar Themen3. Administratives

LSP4MAT

47

Page 74: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

Zusammengefasst:

(1) Basis Feature Extraction (3 Studenten)(2) Face Clustering (3 Studenten)(3) Text Detection (3 Studenten)(4) Scene Cut Detection (3 Studenten)(5) Visual Concept Detection (4 Studenten)(6) Mahout Distributed Machine Learning (4 Studenten)

48

LSP4MAT

48

Page 75: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

Bis nächste Woche:

■ In die Literatur einarbeiten!!■ Neue Literatur recherchieren!■ Infrastruktur aufbauen, z.B.:□ OpenCV ausprobieren□ Mahout ausprobieren□ und alle anderen Tools ...

■ Die Testdaten gibt es im Laufe der kommenden Woche.

49

LSP4MAT

49

Page 76: Seminar Large Scale Processing for Multimedia Analysis - Themenvorstellung

Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam

50

Literatur

• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008

• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

• Blog zur Webseite:http://mumat2011.blogspot.com/

Multimedia Analyse Technologien

50