ThemenLSP4MAT
SeminarDr. Harald Sack / Dr. Peter Tröger
Jörg Waitelonis / Magnus Knuth / Christian HentschelBernhard Quehl / Haojin Yang
Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Wintersemester 2011/2012
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
1
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
2
LSP4MAT
1. Einführung und Überblick2. Seminar Themen3. Administratives
2
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
3
LSP4MATLarge Scale Processing for Multimedia Analysis
Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos
AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses
Ergebnis
Das serielle Prinzip
3
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
3
LSP4MATLarge Scale Processing for Multimedia Analysis
Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos
AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses
Ergebnis
Das serielle Prinzip
HardCut Detectiondiffi = ∑(framei) - ∑(framei+1) diffi > threshold
?yes/no
3
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
3
LSP4MATLarge Scale Processing for Multimedia Analysis
Feature ExtractionExtrahieren der für die Analyse notwendigen Eigenschaften des Videos
AnalyseAnwenden einer Rechenvorschrift zur Ermittlung des Ergebnisses
Ergebnis
Das serielle Prinzip
HardCut Detectiondiffi = ∑(framei) - ∑(framei+1) diffi > threshold
?yes/no
Object Detectionsifti = SIFT(framei) isObject(sifti) yes/no
Scale Invariant Feature Transform trainierter Klassifikator
3
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
4
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Bedingungen
mehr als 10.000 Videos(zum Teil in HD Formaten)
- DVCPRO Codec (50/100Mbit/s)- 22GB/h bzw. 44GB/h
komplexer Workflowmit unterschiedlichen Abhängigkeiten
mehrere Maschinen mit je mehreren Kernen
FutureSOC: - bis 48 CPUs, - 256-2048 GB RAM
2 Projekt Rechner - je 16 CPUs - ca. 100GB RAM - ca. 30TB HDD
4
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
Möglichkeiten?
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel
Möglichkeiten?
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel
also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)
Möglichkeiten?
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel
Sehr vereinfacht!
Dazu nächste Woche mehr.
also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)
Möglichkeiten?
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
1. Eine sehr große Menge an Videos so schnell es geht abarbeiten.
2. Ein Video so schnell es geht prozessieren.
(a) mehrere Maschinen arbeiten an unterschiedlichen Videos gleichzeitig(b) eine Maschine arbeitet an unterschiedlichen Videos gleichzeitig(c) eine Maschine arbeitet an einem Video parallel(d) mehrere Maschinen arbeiten an einem Video parallel
Sehr vereinfacht!
Dazu nächste Woche mehr.
also: Parallelisieren über mehrere Maschinen (ScaleOut)Parallelisieren auf einer Maschine (ScaleUp)
Möglichkeiten?Granularität?
5
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
6
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
Welche Granularität ist optimal für:
(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?
6
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
6
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
Welche Granularität ist optimal für:
(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?
Tradeoff
6
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
6
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
Welche Granularität ist optimal für:
(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?
Zeit zum Verteilen vs. Zeit zum Verarbeiten
Tradeoff
6
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
6
LSP4MATLarge Scale Processing for Multimedia Analysis
Die Herausforderung
Welche Granularität ist optimal für:
(1) das Verteilen auf unterschiedlichen Maschinen, und(2) das Verteilen auf mehrere CPUs?
Sehr vereinfacht!
Dazu nächste Woche mehr.
Zeit zum Verteilen vs. Zeit zum Verarbeiten
Tradeoff
6
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
Ermittlungen nachBombenfunden
Text Identification
Pipeline
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
Ermittlungen nachBombenfunden
Text Identification
Pipeline
Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
Ermittlungen nachBombenfunden
Text Identification
Pipeline
Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades
Visual Concept Detection
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
Ermittlungen nachBombenfunden
Text Identification
Pipeline
Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades
Visual Concept DetectionMahout Distributed Machine Learning
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
7
LSP4MATLarge Scale Processing for Multimedia Analysis
VideoVideoVideo Basis Feature Extraction
Jobs
Basis Features z.B.: - Einzelframes- Histogramme/Statistiken- Bild Kanäle (RGB, HSV, YUV, ...)- Kantenbilder, Faltung- ...
Face Detection
Face Tracking (Clustering)
Ermittlungen nachBombenfunden
Text Identification
Pipeline
Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades
Visual Concept DetectionMahout Distributed Machine Learning
1
2
3
4
5
6
7
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
8
LSP4MAT
1. Einführung und Überblick2. Seminar Themen3. Administratives
8
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
Eingabe:■ Verzeichnis mit n Videos
Ausgabe:■ pro Video ein Verzeichnis mit Einzelbildern■ zu jedem Einzelbild serialisierte Features (z.B. als XML)□ Farbraumhistogramme: RGB, Gray, HSV, YUV, ...□ Kantenbilder: Sobel, Canny, Laplace, ...□ Entropie□ SIFT□ uvm.
9
LSP4MAT1. Thema: Basisfeature Extraction
1
9
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
Aspekte, die analysiert werden können:■ Wie kann ein Videos parallel eingelesen und weiterverarbeitet werden?■ Wo sind die Bottlenecks bzgl. IO, CPU, Memory?■ Wie könnte man die einzelnen Feature-Algorithmen parallelisieren?
10
LSP4MAT1. Thema: Basisfeature Extraction
1
10
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
Literatur und Referenzen11
LSP4MAT1. Thema: Basisfeature Extraction
1
Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
Rafael C. Gonzalez ; Richard E. Woods : Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001
http://ffmpeg.org
11
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
12
LSP4MAT2. Thema: Face-Detection und Tracking
3 Studenten
Face Detection
Face Tracking (Clustering)
Thema 2: Face-Detection und Tracking(1) Aus einer gegebenen Menge von n Bildern Gesichter extrahieren (mit OpenCV).(2) aus den Gesichtern Features extrahieren(3) die Featurevektoren Clustern
2
12
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
13
LSP4MAT2. Thema: Face-Detection und Tracking
Eingabe:■ n Bilder mit und ohne Gesichter
Ausgabe: ■ Zuordnung: Bild - Cluster ■ Also: die Information, welches Bild ein Gesicht eines Clusters enthält.
■ Idealerweise ist dies die Person, die diesen Cluster repräsentiert.
2
13
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
14
LSP4MAT2. Thema: Face-Detection und Tracking
■ Aktuell basiert das Verfahren auf einer seriellen Verarbeitung:□ Erst werden alle Gesichter extrahiert, dann alle Features extrahiert und
anschließend geclustert, etc.
■ Zu erreichen sind:□ Gesichter parallel detektieren (mehrer Bilder gleichzeitig bearbeiten)□ Features parallel extrahieren□ das Clustering parallelisieren:
□ aktuell kombiniertes Verfahren aus EM-Clustering und k-Means-Clustering□ diese Verfahren müssen parallelisiert werden, oder eine parallelisierte
Alternative erarbeitet werden
2
14
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
15
LSP4MAT2. Thema: Face-Detection und Tracking
2Literatur und Referenzen
Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
Rafael C. Gonzalez ; Richard E. Woods : Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001
Thomas Mitchell. Machine Learning. Mcgraw-Hill Higher Education, 1997.
15
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
16
LSP4MAT3. Thema: Text-Lokalisierung
Thema 3: Text-Lokalisierung(1) Text innerhalb eines Bildes finden.(2) Schneller als Echtzeit, d.h. in weniger als 1/25 Sekunden
Ermittlungen nachBombenfunden
Text Identification
Pipeline
3
16
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
17
LSP4MAT3. Thema: Text-Lokalisierung
Eingabe:■ Luminanzkanal von n Bilder
Ausgabe:■ pro Bild einer Liste von Textboxen (BoundingBoxes)
Alpine Alpine AlpineAlpine
Eingabe Textlokalisation (Luminanz Image)
Luminanz
Chrominanz (blue)
Chrominanz (red)Ausgabe Textbox
[x,y,width,height]
3
17
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
18
LSP4MAT3. Thema: Text-Lokalisierung
Idee:■ welche Bilder in dem Video enthalten Text■ in welcher Bildregion befindet sich der Text
Featu
re Ex
tracti
on
Analyse der Features
Bestimmen der Bildregion
LSP4MAT3. Thema: Text-Lokalisierung
3
18
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
19
LSP4MAT3. Thema: Text-Lokalisierung
Workflow Prinzip■ 1. First, a vertical edge map is produced using Sobel filter
■ 2. Morphological dilation operation is adopted to link the vertical character edges together
■ 3. A binary mask is generated
■ 4. Create a binary map after Connected Component analyse
■ 5. binary map after the adaptive projection profile refinement
���������������� � ������������������ ����������������������
�������������������� �����������������������������������
������������������������������������������������������������
Fig. 1. Workflow of the proposed text detection method. (b) is the vertical edge map of (a). (c) is the vertical dilation map of(b). (d) is the binary map of (c). (e) the result map of subsequent connected component analysis. (f) shows the binary map afterthe adaptive projection profile refinement. (g) is the final detection result.
for text detection of nature scene images. The operator com-putes for each pixel the width of the most likely stroke con-taining the pixel. The output of the operator is a stroke-featuremap, which has the same size as the input image, while eachpixel represents the corresponding stroke width value of theinput image.
3. TEXT DETECTION IN VIDEO IMAGES
Text detection is the first task of Video OCR. Our approachdetermines, whether a single frame of a video file containstext lines, for which a tight bounding box is returned. In or-der to manage detected text lines efficiently, we have defined aclass ”text line object” with the following properties: bound-ing box location (the top-left corner position), bounding boxsize. After the first round of text detection, the refinement andthe verification procedures ensure the validity of the detectionresults in order to reduce false alarms.
3.1. Text detector
Before performing the text detection process, a gaussiansmooth filter is applied to the images that have an entropyvalue larger than a predefined threshold Tentr . For our pur-pose, Tentr =5.25 has proven to be to the best advantage.
We have developed an edge based text detector, subse-quently referred to edge text detector. The advantage of ourdetector is its computational efficiency compared to other ma-chine learning based approaches, because no computation-ally expensive training period is required. However, for vi-sually different video sequences a parameter adaption has tobe performed. The best suited parameter combination of ourmethod were learned from the test runs on the given test data.
Fig. 2. Workflow of the proposed adaptive text line refinementprocedure
The processing workflow for a single frame is depictedin Fig. 1 (a-e). First, a vertical edge map is produced usingSobel filter [8] (cf. Fig. 1 (b)). Then, the morphological dila-tion operation is adopted to link the vertical character edgestogether (cf. Fig. 1 (c)). Let MinW denote the detected min-imal text line width. A rectangle kernel:1�MinW is definedfor vertical dilation operator. Subsequently, a binary maskis generated by using Otsu’s thresholding method [9]. Ulti-mately, we create a binary map after Connected Component
3
19
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
20
LSP4MAT3. Thema: Text-Lokalisierung
Literatur und Referenzen
Bradski, G.; Kaehler, A.: Learning OpenCV. Beijing : O'Reilly, 2008
Rafael C. Gonzalez ; Richard E. Woods: Digital Image Processing Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2001
Haojin Yang, Bernhard Quehl, Harald Sack: Text detection in video images using adaptive edge detection and stroke width verification, International Conference On Systems,Signals And Image Processing, Vienna, 2012 (submitted)
3
20
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
21
LSP4MAT4. Thema: Scene-Cut-Detection
Thema 4: Scene-Cut-Detection
(1) Parallelisieren der Feature Extraction für Scene-Cut- und Shot-Detection4
21
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
21
LSP4MAT4. Thema: Scene-Cut-Detection
Scene Cut Detection• Hard Cuts• Soft Cuts• DropOuts• Wipes/Fades
Thema 4: Scene-Cut-Detection
(1) Parallelisieren der Feature Extraction für Scene-Cut- und Shot-Detection4
21
Eingabe: ■ n Videos
Ausgabe:■ Liste von Schnitten mit Index, Frame Position im Videodatenstrom, Dauer des
Schnittes und Schnitttype
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
224
Index Frame number
Cut duration Cut type
79 85810 0 HardCut
80 88688 53 SoftCut
81 7896 2 DropOut
82 32592 18 FadeOut
83 124140 36 Whipe
LSP4MAT4. Thema: Scene-Cut-Detection
22
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
frames
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
frames
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
frames
subshots
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
frames
subshots
LSP4MAT4. Thema: Scene-Cut-Detection
23
■ Automatische strukturelle Gliederung von AV-Daten ■ Zerlegung des Videodatenstroms in inhaltlich
kohärente Abschnitte (Segmente)
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
23
3 Studenten
4
video
scenes
frames
subshots
shots
LSP4MAT4. Thema: Scene-Cut-Detection
23
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
244 Shot Boundary Detection
Identification of
• Hard Cuts• Drop Outs• Soft Cuts, as e.g., Dissolve, Wipe, Cross-Fade, etc.
Analytical Shot Boundary Detection
• Analysis of Luminance/Chrominance Histograms• Analysis of Edge Distribution• Analysis of Motion Vectors
Machine Learning
• Classification of Hard/Soft Cuts based on Image Features• K-Nearest Neighbor• Random Forrest • Support Vector Machines
LSP4MAT4. Thema: Scene-Cut-Detection
24
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
25
Aspekte: ■ Bottleneck Feature Extraction:■ Histogramm / Pixel Differenzen
aufeinanderfolgender Frames
■ Wie kann das Partitionieren der Daten möglichst schnell erfolgen?
■ Wie können die Grenzen zwischen den Partitionen behandelt werden?
4
LSP4MAT4. Thema: Scene-Cut-Detection
25
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
26 Algorithmus:
■ Feature Extraction:■ Histogramm / Pixel Differenzen
extrahieren
■ Differenzen sortieren■ Threshold bestimmen ■ Differenzenanstieg bestimmen und mit th (45°)
vergleichen■ Anstieg > th = HardCut
4
LSP4MAT4. Thema: Scene-Cut-Detection
26
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
27 Literatur und Referenzen4
1. Lienhart, R. W. (1998). Comparison of automatic shot boundary detection algorithms. Proceedings of SPIE, 3656(SPIE 3656), 290-301. Spie.
2. Yuan, J., Wang, H., Xiao, L., Zheng, W., Li, J., Lin, F., & Zhang, B. (2007). A Formal Study of Shot Boundary Detection. IEEE Transactions on Circuits and Systems for Video Technology, 17(2), 168-186.
3. Boreczky, J. S. (1996). Comparison of video shot boundary detection techniques. Journal of Electronic Imaging, 5(2), 122.
4. Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack and Christoph Meinel, (2011) Automatic Lecture Video Indexing Using Video OCR Technology IEEE Int. Symposium on Multimedia 2011 ISM , Dana Point, CA, USA, 5-7.
LSP4MAT4. Thema: Scene-Cut-Detection
27
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT5. Thema: Visual Concept Detection
Thema 5: Visual Concept Detection
(1) Implementieren des ‘Bag of Words’ Ansatzes zur generischen Klassifikation visueller Daten (OpenCV, libSVM)(2) Die einzelnen Arbeitsschritte sollen parallelisiert werden (dazu gleich mehr...)■ Low-level Feature Extraction■ BoW Feature Aggregation■ Training■ Classification
285
28
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
29 Eingabe:■ n Bilder:□ Ground Truth (Trainings- und Testdaten)□ Pascal VOC 2010 (Visual Object Challenge) http://pascallin.ecs.soton.ac.uk/
challenges/VOC/voc2010/Ausgabe:■ Kassifikationsergebnis, z.B. Bild zeigt Auto
Aufgabe: Parallelisierung der einzelnen Schritte■ Feature Extraktion■ Codebook Generierung■ BoW Generierung■ Training + Klassifikation
5
LSP4MAT5. Thema: Visual Concept Detection
29
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
30 Motivation:
■One Feature to Rule Them All!
■Gibt ein Merkmal, mit dem sich generisch beliebige visuelle Konzepte lernen lassen?
- Partylife- Family_Friends- Beach_Holidays- Building_Sights- Snow- Citylife- Landscape_Nature- Sports- Desert- Spring- Summer- Autumn- Winter- Indoor- Outdoor- Plants- Flowers- Trees- Sky- Clouds- Water- Lake- River
- Sea- Mountains- Day- Night- Sunny- Sunset_Sunrise- Still_Life- Macro- Portrait- Overexposed- Underexposed- Neutral_Illumination- Motion_Blur- Out_of_focus- Partly_Blurred- No_Blur- Single_Person- Small_Group- Big_Group- No_Persons- Animals- Food- Vehicle
- Aesthetic_Impression- Overall_Quality- Fancy- Architecture- Street- Church- Bridge- Park_Garden- Rain- Toy- MusicalInstrument- Shadow- bodypart- Travel- Work- Birthday- Visual_Arts- Graffiti- Painting- artificial- natural- technical- ...
5
LSP4MAT5. Thema: Visual Concept Detection
30
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
■ Textdokument Repräsentation mit Bag of Words (BoW)-Model■ “John likes to watch movies. Mary likes too.”
■ “John also likes to watch football games.”
■ dictionary/codeword vocabulary={1:"John", 2:"like", 3:"watch", 4:"movie", 5:"football", 6:"games", 7:"Mary"}
■ BoW-Feature Vectors:
- [1, 2, 1, 1, 0, 0, 1]- [1, 1, 1, 0, 1, 1, 0]
■ Bildrepräsentation??
■Was sind Wörter?■Was sind relevante Wörter?
➡ Bag of Visual Words
315
LSP4MAT5. Thema: Visual Concept Detection
31
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
■ Textdokument Repräsentation mit Bag of Words (BoW)-Model■ “John likes to watch movies. Mary likes too.”
■ “John also likes to watch football games.”
■ dictionary/codeword vocabulary={1:"John", 2:"like", 3:"watch", 4:"movie", 5:"football", 6:"games", 7:"Mary"}
■ BoW-Feature Vectors:
- [1, 2, 1, 1, 0, 0, 1]- [1, 1, 1, 0, 1, 1, 0]
■ Bildrepräsentation??
■Was sind Wörter?■Was sind relevante Wörter?
➡ Bag of Visual Words
315
LSP4MAT5. Thema: Visual Concept Detection
31
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
325
LSP4MAT5. Thema: Visual Concept Detection
32
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
335
LSP4MAT5. Thema: Visual Concept Detection
33
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
345
LSP4MAT5. Thema: Visual Concept Detection
34
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
5.) Klassifikation355
LSP4MAT5. Thema: Visual Concept Detection
35
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
36
1. E. Mbanya, C. Hentschel, S. Gerke, M.Liu, A. Nuernberger, and P. Ndjiki-Nya. Augmenting bag-of-words - category specific features and concept reasoning. CLEF Notebook Papers/LABs/Workshops, 2010.
2. K.E.a. van de Sande, T. Gevers, and C. G.M. Snoek. A comparison of color features for visual concept classification. Proceedings of the 2008 international conference on Content-based image and video retrieval - CIVR '08, page 141, 2008.
3. D. G. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60(2):91-110, November 2004.
4. G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, and D. Maupertuis. Visual Categorization with Bags of Keypoints. In Workshop on Statistical Learning in Computer Vision, ECCV, pages 1-22, 2004.
5. J. Sivic and A. Zisserman. Video google: a text retrieval approach to object matching in videos. In Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, pages 1470-1477, April 2003.
6. C. G. M. Snoek and M. Worring. Concept-Based Video Retrieval. Foundations and Trends in Information Retrieval, 2(4):215-322, 2009
5Literatur und Referenzen
LSP4MAT5. Thema: Visual Concept Detection
36
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
37 Thema 6: Maschinelles Lernen mit Mahout
(1) Mahout Framework zum parallelisierten Lösen verschiedener Machine Learning Aufgaben mit gegebenen Feature-Vektoren verwenden.(2) Implementieren eines parallelen SVM Algorithmus ■ Mahout unterstützt aktuell keine SVMs
(3) Bottleneckanalyse bzgl. Distanzberechnung auf hochdimensionalen Vektorräumen
6
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
37
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
37 Thema 6: Maschinelles Lernen mit Mahout
(1) Mahout Framework zum parallelisierten Lösen verschiedener Machine Learning Aufgaben mit gegebenen Feature-Vektoren verwenden.(2) Implementieren eines parallelen SVM Algorithmus ■ Mahout unterstützt aktuell keine SVMs
(3) Bottleneckanalyse bzgl. Distanzberechnung auf hochdimensionalen Vektorräumen
6
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Mahout Distributed Machine Learning
37
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
38
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
4 Studenten
6
The Apache Mahout™ machine learning library's goal is to
build scalable machine learning librariesMahout currently has
• Collaborative Filtering• User and Item based recommenders• K-Means, Fuzzy K-Means clustering• Mean Shift clustering• Dirichlet process clustering• Latent Dirichlet Allocation• Singular value decomposition• Parallel Frequent Pattern mining• Complementary Naive Bayes classifier• Random forest decision tree based classifier• High performance java collections (previously colt collections)• A vibrant community• and many more cool stuff to come by this summer thanks to Google summer of code
38
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
39
Eingabe:■ Merkmalsdeskriptoren□ Bag-of-Words, Faces-Features, Scene-Cute-Features, ...□ Trainings- und Testsets□ Klassifikationsergebnisse für Trainingsset□ Ground Truth/Klassenzugehörigkeit der einzelnen Merkmale
Ausgabe:■ Klassifikationsergebnisse für Testset■ Evaluation, ggf. Cross-Validierung
6
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
39
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
40
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Wie können Maschinen lernen zu lernen?■ Lernen:
induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren■Unüberwacht (unsupervised):
Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mithilfe von Clustering)■Überwacht (supervised):
Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation
4 Studenten
6
40
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Unsupervised■ z.B. k-Means■ “Finde ein gute Partitionierung eines
Datenraums anhand von gegebenen Instanzen.”
■ Gesucht: Zuordnung der Instanzen zu Gruppen (Clustern)
■ Abstand zwischen Clusterzentren (Prototyp) und zugeordneten Instanzen soll minimal sein
■ Fragen:□ Wie viele Cluster sollen gesucht
werden?□ Was bedeutet minimal
(Distanzfunktion)
41
Background
K-means Theory
Mixtures
Illustration
Buntine K-Means
6
41
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
42 Supervised:
■ Formale Definition:
■ Y= f(X)
■mit Y = {-1,+1} und X = {Daten}
■ Ziel: Finde f
■Unter Verwendung von vorklassifizierten Trainingsdaten repräsentiert über geeignete Merkmale
■ Verfahren:
■ Extrahieren geeigneter Merkmale (Features)
■ (Selektion/Reduktion geeigneter Features)
■ Training (Finde f)
6
42
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Einige bekannte Vertreter:
K-Nearest Neighbor (k-NN)■ Stimmenmehrheit der k ähnlichsten Instanzen;
Alternativ: Abstandsgewichtung■ einer Instanz wird die Klasse/Kategorie/Label
der nächsten Nachbarn zugeordnet■ Fragen:□ Was ist das Ähnlichkeits-/Abstandsmaß?□ Klassifikator ist für den Fall, dass es
mehrere nä. Nachbanr gibt nicht eindeutig definiert
43
Harald Sack, Hasso-Plattner-Institute for IT-Systems Engineering, Workshop Medienanalyse, TIB, 13.10.2011
• K-Nearest-Neighbor• Stimmenmehrheit der k ähnlichsten
Beispiele
• Linear Discriminant Analysis (LDA)• Minimiert Intra-Klassen Varianz und
maximiert Distanz (”Unähnlichkeit”)
zwischen zwei Klassen
Algorithmen zur Klassifikation
Donnerstag, 13. Oktober 11
6
43
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Random Forests (Supervised)■ Klassifikationsverfahren, bestehend aus mehreren Entscheidungsbäumen besteht■ Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung (Tife ,
Anzahl der Features, Menge der Features...) gewachsen■ Klassifikation durch Mehrheitsentscheidung der einzelnen Bäume
Entscheidungsbaum Beispiel :■ Vorhersage, ob ein Apfelbaum Früchte tragen wird
446
44
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
LSP4MAT4. Thema: Maschinelles Lernen mit Mahout
Support Vector Machines (SVM)
■ Large Margin Optimizer: Generalisierbarkeit
■Nicht-lineare Probleme können gelöst werden
456
45
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
46
LSP4MAT4. Thema: Training von Klassifikatoren mit Mahout
1. Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer New York, 2007.
2. Thomas Mitchell. Machine Learning. Mcgraw-Hill Higher Education, 1997.
3. G. Rätsch. A Brief Introduction into Machine Learning.
4. E. Yom-Tov. An Introduction to Pattern Classification. Advanced Lectures on Machine Learning, Springer Berlin / Heidelberg, 2004.
5. Apache Mahout: http://mahout.apache.org/
6. C.T. Chu, S.K. Kim, Yi A. Lin, Y. Yu, G. R. Bradski, A. Y. Ng, and K. Olukotun. Map-Reduce for machine learning on multicore. In Bernhard Schölkopf, John C. Platt, and Thomas Hoffman, editors, NIPS, pages 281–288. MIT Press, 2006.
6Literatur und Referenzen
46
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
471. Einführung und Überblick2. Seminar Themen3. Administratives
LSP4MAT
47
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
Zusammengefasst:
(1) Basis Feature Extraction (3 Studenten)(2) Face Clustering (3 Studenten)(3) Text Detection (3 Studenten)(4) Scene Cut Detection (3 Studenten)(5) Visual Concept Detection (4 Studenten)(6) Mahout Distributed Machine Learning (4 Studenten)
48
LSP4MAT
48
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
Bis nächste Woche:
■ In die Literatur einarbeiten!!■ Neue Literatur recherchieren!■ Infrastruktur aufbauen, z.B.:□ OpenCV ausprobieren□ Mahout ausprobieren□ und alle anderen Tools ...
■ Die Testdaten gibt es im Laufe der kommenden Woche.
49
LSP4MAT
49
Seminar: LSP4MAT, Hasso-Plattner-Institut, Universität Potsdam
50
Literatur
• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008
• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
• Blog zur Webseite:http://mumat2011.blogspot.com/
Multimedia Analyse Technologien
50