![Page 1: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/1.jpg)
Human Action Recognition Using Temporal Templates
Jonas von Beck
![Page 2: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/2.jpg)
Übersicht
1.Motivation
2.Einführung
3.Temporal Templates
4.Grundlagen der Bilderkennung
5.Implementierung des Verfahrens
6.Fazit
7.Anwendungen
![Page 3: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/3.jpg)
1. Motivation
Bewegungsmuster lassen sich durch die
Bewegung an sich erkennen.
Man erkennt trotz miserabler Bildqualität
eine sich setzende Person.
Frame 5 25 40
![Page 4: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/4.jpg)
2. Einführung
1. Aufnahme der
Bildsequenz
2. Reduzieren
der Auflösung
3. Bewegung
extrahiert &
Binärbild
oder
Graustufen-
bilder
erzeugen
4. Berechnung
invarianter
Merkmale
5. Ablage oder
Abgleich mit
Datenbank
![Page 5: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/5.jpg)
3. Temporal Templates
Es werden Informationen über Bewegung festgehalten.
Diese werden in einem Binärbild oder Graustufenbild festgehalten.
Bewegung: Wo? Wie?
![Page 6: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/6.jpg)
3.1. Motion-Energy Images (MEI)
Generierung eines Binärbildes wobei Bewegung weiß dargestellt wird
Hier Bewegungserkennung durch DifferenzbilderD.h. Aufeinanderfolgende Frames werden differenziert
Um Rauschen entgegenzuwirken wird die Auflösung herabgesetzt.
![Page 7: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/7.jpg)
An den Stellen wo Bewegung stattfindet,
färbt sich das MEI weiß.
![Page 8: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/8.jpg)
3.2. Motion-History Images (MHI)
Erweiterung von MEI
Graustufenbild, bei der frühere Bewegung dunkler dargestellt wird
Dadurch zusätzliche Information über Richtung der Bewegung
![Page 9: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/9.jpg)
Hinsetzen MHI
Arme Schwenken MHI
Hinknien MHI
Durch die Graustufen lässt sich erkennen, wie die Bewegung stattgefunden hat.
![Page 10: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/10.jpg)
4. Grundlagen aus der Bilderkennung
ο Ziel: Merkmale extrahieren die
unabhängig von Position, Rotation oder
Skalierung sind.
Die gleiche Bewegung
aus verschiedenen
Sichtweisen.
(z.B. wenn Person weiter
Weg)
![Page 11: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/11.jpg)
4.1. Invariante Merkmale
Allgemeine Merkmale:• Fläche der Form• Umfang der Form• Minimum Bounding Rectangle (MBR)• Best Ellipse Fit
Invariante Merkmale:• Verhältnis Höhe/Breite: |log(H/B)|• Füllungsgrad• Kompaktheit: Fläche/Umfang²• Elongierttheit:
(1- Nebenachse/Hauptachse) des BEF• Und weitere
• MBR
• BEF
![Page 12: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/12.jpg)
4.1.1. Momente
Durch Momente lassen sich Objektform und Intensitätsverläufe eindeutig darstellen.
Dazu werden aus der Bildfunktion B(x,y) die Momente mp,q gebildet.
![Page 13: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/13.jpg)
4.1.1. Momente
• Die Ordnung des Moments berechnet sich aus (p+q)
• m0,0 = Summe der Pixelwerte. (Fläche bei Binärbild)
• m1,0 = Zeilenmoment erster Ordnung
• m0,1 = Spaltenmoment erster Ordnung
• Daraus lässt sich der Schwerpunkt des Bildes berechnen
![Page 14: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/14.jpg)
4.1.2. Hu-Momente
Mit Hilfe des Schwerpunkts können die zentralen Momente
μp,qdefiniert werden
Hu hat die unskalierten zentralen Momente normiert
![Page 15: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/15.jpg)
4.1.2. Hu-Momente
Hu hat mit den normierten zentralen Momenten 7 Merkmale entwickelt, die invariant gegen Translation, Rotation, und Größenskalierung sind .
Die Merkmale werden in einen Vektor (x1x2x3x4x5x6x7)T gepackt.
![Page 16: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/16.jpg)
Die 7 invarianten Hu-Momente
![Page 17: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/17.jpg)
4.2. Klassifizierung
Aus den Trainingsdaten wird ein Merkmalsvektor nach Hu erstellt und in einer Datenbank den Einzelnen Bewegungen zugeordnet.
Die Eingabedaten müssen Klassifiziert werden. Dafür werden diese mit der Datenbank abgeglichen.
![Page 18: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/18.jpg)
4.2. Klassifizierung Am einfachsten ist es einen Mittelwert x der
Trainingsdaten zu berechnen Abgleich erfolgt dann durch suchen der kleinsten
euklidischen Norm im R7
Leider gibt es dabei einige Nachteile und Probleme
2 2 21 1 1 1 7 7(x t ) (x t ) ... (x t )
![Page 19: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/19.jpg)
4.2.1. Probleme bei euklid.
x1 t1
t2x2
t1 und t2 sind gleich weit von
Verschiedenen Mittelwerten entfernt.
Dennoch sollten beide unterschiedlich
gewichtet werden, da das obere Merkmal
eine größere Streuung hat als das Untere.
![Page 20: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/20.jpg)
4.2.1. Probleme bei euklid.
Realistischere
Abstandsmessung
x• Trainingsdaten• Testwerte
t1
t2
t2 ist zwar näher an x, t1 ist aber
eher im Streuungsbereich
![Page 21: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/21.jpg)
4.2.2. Mittelwert und Varianz
Mittelwert = E[x]
Standartabweichung = Sqr(Var[x])Gilt für Vektor 1. Dimension
Abweichungen lassen sich skalieren, so dass
diese Einheitlich sind.
Standarisierte Distanz r:
x td
Stan dardabweichung
![Page 22: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/22.jpg)
4.2.3. Standarisierte Distanz
t sei zu Klassifizierender Vektor mit den 7 Hu-Momenten
ti = i-ter Eintrag im Vektor t
xi,j = Mittelwert des Merkmals i aus der Klasse (Bewegung) j
si,j = Standardabweichung des Merkmals i aus der Klasse j
Wir berechnen die Standarisierte Distanz
2 2 2
2 1 1, j 2 2, j 7 7, jj
1, j 2, j 7, j
t x t x t xd t, x ...
s s s
Wenn die Distanz so berechnet wird, haben die unterschiedlichen
Streuungen der Merkmale keinen Einfluss auf die Klassifizierung
![Page 23: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/23.jpg)
4.2.4. Kovarianzen
• Verschiedene Momente können
zueinander Abhängig sein. (korreliert)• Wir berechnen also paarweise die
Kovarianz der Momente.• Eine Kovarianzmatrix mit allen
Kovarianzen wird aufgestellt
![Page 24: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/24.jpg)
4.2.4. Kovarianzen
1,i 2,i n,i
1, j 2, j n, j
x , x ,..., x
x , x ,..., x
m(i) m( j)
Seien eine Serie von n Beispielen zum Merkmal i
und eine Serie von n Beispielen zum Merkmal j
jeweils vom gleichen Muster
und sind jeweils die Mittel wert
1,i i 1, j j n,i i n, j j
1c i, j x m x m ... x m x m
n 1c i, j 0
c i, j 0
e der Merkmale
Die Kovarianz von Merkmal i u
i
nd j ist definiert durch
, falls und zusammen Wachsen und Fallen
, falls steigt
j
i /
c i, j 0
fällt wenn fällt/steigt
,
j
i jfalls und unabhäng sind
![Page 25: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/25.jpg)
4.2.5. Die Kovarianzmatrix Mahalanobisdistanz
T2 1x x x
c 1,1 c 1,n
C
c n,1 c n,n
d t m C t m
Mit dieser Matrix
lassen sich Distanzen
unabhängig von
Streuung und
Korrelation zwischen
Merkmalen berechnen
![Page 26: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/26.jpg)
5.1. Trainieren des Systems
Es werden 18 Aerobicübungen aufgenommen
und die Zugehörigen MEIs und MHIs
Generiert. Dies wir für Verschiedene Blick-
winkel von -90° bis 90° (30°Schritte) getan.
![Page 27: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/27.jpg)
5.1. Trainieren des Systems
• MEIs und MHIs werden über einen
Zeitraum von „r“ bis „r+Δr“ rückwirkend
erzeugt, da Bewegungen unterschiedlich
schnell durchgeführt werden können.• Zu den erhaltenen Daten werden die
Statistischen Daten berechnet und in der
Datenbank abgelegt.
![Page 28: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/28.jpg)
5.2. Test mit einer Kamera
Um das System zu testen werden die
Übungen von einer Weiteren Person
Wiederholt. Aufnahmewinkel 30°
Wieder werden MEI und MHI erstellt, die
statistischen Daten berechnet. Dann folgt
der Abgleich mit der Datenbank durch
Mahalanobis Distanzen.
![Page 29: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/29.jpg)
Die Tabelle zeigt die
Distanz zur nahesten
Bewegung, sowie die
Nummer dieser.
Zudem die Distanz zur
Korrekten Bewegung
und die durchschnittliche
Distanz, sowie der Rang
der Korrekten
Bewegung.
![Page 30: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/30.jpg)
5.2. Test mit einer Kamera
Bei den Bewegungen die
falsch erkannt wurden,
ist dies auf die
Ähnlichkeit
zurückzuführen.
Auch wurde die
Bewegung durch die
andere Person nicht
identisch durchgeführt
Testbewegung bester Match korrekter Match
![Page 31: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/31.jpg)
5.3. Test mit mehreren Kameras
Einige Bewegungen die von einem
Sichtwinkel ähnlich MEIs und MHIs haben,
können von einem anderen Winkel
unterschiedlich aussehen.
Der gleich Test wird mit zwei Kameras
wiederholt die in einem Winkel von 90°
zueinander stehen.
![Page 32: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/32.jpg)
Das Ergebnis sieht mit
zwei Kameras deutlich
besser aus.
Es muss berücksichtigt
werden, dass jede
Bewegung nur wenig
trainiert wurde.
Dennoch gibt es andere
Probleme die eine
Ursache sein könnten
![Page 33: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/33.jpg)
6.1. Probleme / Nachteile
1. Bewegungserkennung:• Bewegung im Hintergrund• Bewegung der Kamera• Einfarbige Kleidung• Helligkeitsschwankungen
2.Verdeckung durch Personen Objekte
3.Kombinierte Bewegungen• Werfen eines Balls• Bewegung des Oberkörpers beim
gehen
![Page 34: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/34.jpg)
6.2. Vorteile
1.Sehr geringer Berechnungsaufwand
2.Funktioniert auch bei sehr schlechter
Bildqualität
![Page 35: Human Action Recognition Using Temporal Templates Jonas von Beck](https://reader035.vdocuments.pub/reader035/viewer/2022062622/55204d6649795902118bbb14/html5/thumbnails/35.jpg)
7. Anwendungen
1.Als Teil von anderen Bildsequenz-
erkennungsprogrammen
2.KidsRoom Interaktiver Spielraum