thèse de l’université de lyontheses.univ-lyon2.fr/.../ali_i_resume_lg_fr.pdf · numéro...
TRANSCRIPT
Numéro d’ordre : 2012- Année 2012
Université Lumière Lyon 2
Laboratoire d’InfoRmatique en Image et Systèmes
d’information
École Doctorale Informatique et Mathématiques de Lyon
Thèse de l’Université de Lyon
Présentée en vue d’obtenir le grade de Docteur,
spécialité Informatique
par
Imtiaz ALI
Détection d’objets dans un fond dynamique
Thèse encadrée par :
Co-directeur Julien Mille Maître de Conférences, Université Claude Bernard Lyon 1
Directrice Laure Tougne Professeure, Université Lumière Lyon 2
Laboratoire d’InfoRmatique en Image et Systèmes d’information
UMR 5205 CNRS - Université Lumière Lyon 2 - Bât. C
69676, Bron cedex - France
Tel: +33 (0) 4 78 77 43 77 - Fax: +33 (0)4 78 77 23 38
Résumé
Détecter et reconnaître des objets de manière automatique dans des vidéos
numériques est un défi majeur en analyse de vidéos. Dans le cadre de cette
thèse, nous nous sommes confrontés au problème difficile de la segmenta-
tion d’objets dans des vidéos dont le fond est en mouvement permanent. Il
s’agit de situations qui se produisent lorsque, par exemple, l’on filme des
cours d’eau, le ciel, ou encore une scène contenant de la fumée, de la pluie,
etc. C’est un sujet peu étudié dans la littérature car très souvent les scènes
traitées sont plutôt statiques et seules quelques parties bougent, comme par
exemple les feuillages à cause du vent. Une autre source de mouvements
concerne les changements de luminosité. La principale difficulté, dans le cas
de scènes ayant un fond en mouvement, est de pouvoir différencier les mou-
vements de l’objet de ceux du fond qui peuvent parfois être très similaires.
En effet, par exemple, un objet dans une rivière peut se déplacer à la même
allure que l’eau. Les algorithmes de la littérature extrayant des champs
de déplacement échouent alors et ceux basés sur des modélisations de fond
génèrent de très nombreuses erreurs. C’est donc dans ce cadre compliqué
que nous avons tenté d’apporter des solutions.
1 Contexte
La détection d’objets est classiquement effectuée en segmentant la scène
surveillée en avant-plan (les objets d’intérêts) et arrière-plan (le fond : le reste
de la scène). Chaque pixel dans l’image courante, est classé dans premier plan
ou dans le fond en fonction de ses différentes caractéristiques. Pour effectuer
cette tâche de classification, une technique classique consiste à construire une
représentation du fond et/ou du premier plan. Il est à noter qu’une méthode
de détection d’objets doit être suffisamment robuste pour être efficace y
compris dans des environnements complexes. Par exemple, en extérieur, les
objets et le fond peuvent avoir les mêmes couleurs ou les mêmes mouvements
; les objets peuvent traverser des zones d’ombre ; l’illumination globale peut
changer rapidement etc.
Dans cette thèse, nous nous concentrons sur des vidéos contenant un fond
dynamique. Plus précisément, nous étudions des vidéos contenant un mouve-
ment continu et global du fond, les objets étant eux-mêmes en mouvements.
Les situations traitées sont, par exemple, des objets flottants en rivière, des
1
objets à détecter en présence de feu ou de fumée, des objets sur des escaliers
mécaniques, etc. Par ailleurs, nous considérons les vidéos acquises avec une
caméra statique, de sorte que tout mouvement apparent naît d’un mouve-
ment réel de l’objet d’intérêt ou, de tout ou d’une partie de l’arrière-plan.
Du point de vue de la vision par ordinateur, la couleur/texture, la forme et
le mouvement sont parmi les caractéristiques importantes utilisées dans de
nombreux algorithmes de détection d’objets. Dans certains cas, nous pou-
vons obtenir des connaissances a priori sur ces caractéristiques, telles que le
sens on la vitesse approximative du déplacement des bagages sur un tapis
roulant ou, les endroits où le mouvement est censé se produire dans le cas
d’un mouvement piétonnier etc. Cette information peut être utilisée pour la
détection d’objets. Dans d’autres cas, nous pouvons avoir une connaissance
a priori sur l’apparence ou la couleur des objets. L’utilisation du modèle de
couleur de peau dans les applications de détection de visages est un exemple
de cette catégorie, où chaque pixel d’image est classé "peau" ou "non peau".
Enfin, dans certains cas, nous pouvons avoir une connaissance a priori sur
les formes d’objets (par exemple dans la détection de véhicules, la détec-
tion de feuilles, etc.). l’utilisation de cette information permet d’améliorer la
segmentation des objets. Dans certaines parties de ce travail, nous prenons
en compte quelques unes de ses connaissances priori et montrons qu’elles
permettent d’améliorer significativement les résultats.
Dans un premier temps, travail est spécialisé dans la détection et le comp-
tage des bois morts dans des rivières. Il s’agit d’un exemple concret de détec-
tion d’objets dans un fond en mouvement où de forts a priori sur la couleur
sont disponibles. Ce problème nous a été apporté par des géographes de
l’UMR 5600 Environnement Villes & Société avec qui nous avons collaboré
dans le cadre du projet DADEC (Détection Automatique de Débris pour
l’Aide à l’Etude des Crues). Le projet vise à étudier le transport des bois
morts (de petites et grandes pièces d’arbres) tombés et emportés par des
inondations et des écoulements d’eau en utilisant l’analyse vidéo. La surveil-
lance à distance des rivières est réalisée depuis plusieurs années et les vidéos
ainsi obtenues ont été annotées manuellement par les géographes, presque
image par image, afin de compter le nombre de morceaux de bois passant
dans la scène observée; deux images extraites de ses séquences sont don-
nées en Figure 1. L’enregistrement manuel de chaque passage de bois est
extrêmement fastidieux et limite ainsi l’étude à un faible nombre de vidéos.
2
Figure 1: Deux images des vidéos filmées sous le projet DADEC.
Par conséquent, la détection automatique du bois morts utilisant la vision
par ordinateur peut permettre d’accélérer le processus et d’élargir l’étude à
de plus grandes échelles.
Dans un deuxième temps, supposant la connaissance a priori du mou-
vement des objets, dans un contexte quelconque, nous avons proposé un
modèle de mouvement de l’objet et avons montré que la prise en compte de
cet a priori de mouvement permettait d’améliorer nettement les résultats
des segmentations obtenus par les principaux algorithmes de modélisation
de fond que l’on trouve dans la littérature.
Enfin, dans un troisième temps, en s’inspirant des méthodes utilisées
pour caractériser des textures 2D, nous avons proposé un modèle de fond
basé sur une approche fréquentielle. Plus précisément, le modèle prend en
compte non seulement le voisinage spatial d’un pixel mais également le voisi-
nage temporel de ce dernier. Nous avons appliqué la transformée de Fourier
locale au voisinage spatio-temporel d’un pixel pour construire un modèle de
fond. Nous avons appliqué nos méthodes sur plusieurs vidéos, notamment
les vidéos du projet DADEC, les vidéos de la base DynTex, des vidéos syn-
thétiques et des vidéos que nous avons faites afin de comparer nos résultats
à ceux de la littérature.
2 Détection d’objets basée couleur
De nombreuses méthodes s’appuyant sur des représentations statistiques
de la couleur/texture, du mouvement ou de la forme sont utilisées pour
l’extraction d’objets. L’approche probabiliste est un moyen pour modélisa-
tion la classe d’un pixel en fonction des valeurs de ces caractéristiques et de la
3
classe des pixels voisins aux instants précédents, permettant alors de décider
si le pixel considéré appartient au fond ou au premier plan. Ces représenta-
tions peuvent aussi être construites de manière à combiner la connaissance
de plusieurs caractéristiques sur chaque pixel. Une des méthodes fréquem-
ment utilisées dans la littérature est la modélisation du fond, pour lequel une
représentation statistique de la couleur est construite pour chaque pixel en
prenant en compte la valeurs du pixel à différents instants. Les modèles de
fond mémorisent en effet les couleurs qui restent longtemps dans la scène.
Les GMM (Gaussian Mixture Model) [Stauffer and Grimson, 2000] sont l’une
des méthodes les plus connues et les plus utilisées pour modéliser le fond.
Grâce à cette méthode, il est possible de modéliser les différentes couleurs
qui peuvent apparaître à chaque pixel du fond. Si un fond est modélisé par
mélange de Gaussiennes, alors la probabilité qu’un pixel x d’intensité I(x)
soit un pixel de fond est donnée par :
Pbackground(I(x), µ(x),Σ(x)) =K∑
i=1
ωi(x) ∗ η(I(x), µi(x),Σi(x))
=K∑
i=1
ωi(x)
(2π)D2 |Σi(x)|
1
2
e−1
2(I(x)−µi(x))
TΣ−1
i (x)(I(x)−µi(x))
(1)
où K est le nombre total de Gaussiennes et ωi(x) est le poids associé à
chaque Gausienne (∑K
i=1 ωi(x) = 1). µi(x) et Σi(x) sont respectivement la
valeur moyenne et matrice de covariance de la iéme Gaussienne pour le pixel
courant. Dans la méthode basée sur le mélange des Gaussiennes proposée
par [Stauffer and Grimson, 2000], un pixel est considéré comme un pixel de
fond si sa valeur correspond à l’une des B premières distributions calculé par
l’équation suivante :
B = argminb
b∑
i=1
ωi(x) > T
où i exprime l’indice de la Gaussienne. Plus précisèment, la détection d’objet
est obtenue en comparant la valeur de chaque pixel avec le pixel du modèle
de fond correspondant et en le classant comme premier plan ou fond.
Dans la méthode utilisant les Codebook, proposée par [Kim et al., 2005],
à chaque pixel est associé un ou plusieurs mots stockés dans un dictionnaire.
4
Le nombre de mots pour un pixel dépend de la variation de la couleur de
fond au pixel considéré. Par conséquent, tous les pixels n’ont pas le même
nombre de mots. Avec cette méthode, durant l’apprentissage, un modèle de
fond est construit pour chaque pixel. Ainsi, un pixel est alors classé comme
un pixel objet, si sa valeur ne correspond à aucun mot du dictionnaire.
Une autre méthode non paramétrique pour la modélisation du fond basée
couleur, se VuMeter et a été proposée par [Goyat et al., 2006]. Cette méth-
ode enregistre les différentes couleurs possibles d’un pixel à l’aide d’un his-
togramme. Ainsi une discrétisation de la fonction de densité de probabilité
Pbackground est réalisée suivant N valeurs. Après quelques temps, c’est-à-dire
après plusieurs images, les valeurs qui modélisent le fonds ont grandes alors
que les autres restent faibles ou quasi-nulles. Un pixel dans l’image courante
est classé comme fond si ses valeurs correspondantes sont inférieures à un
seuil fixé empiriquement, sinon le pixel est classé comme appartenant au
premier plan.
De faibles coûts de calcul et aucune connaissance a priori des objets
d’intérêts sont les deux caractéristiques importantes qui font de ces tech-
niques de modélisation de fond très populaires. Ces approches sont efficaces
lorsque la scène à modéliser est statique ou quasi-statique c’est-à-dire avec
des perturbations limitées. Cependant, le fond que nous étudions dans le
cadre du projet DADEC, et plus généralement dans le contexte de cette
theèse, contient beaucoup de variations d’intensité et des mouvements qui
compliquent la modélisation de fond basée uniquement sur la couleur. Les
modèles classiques de fond basés sur la couleur produisent beaucoup de
fausses détections dans de telles situations (voir la Figure 7). Pour essayer
de pallier à ces problèmes nous proposons deux méthodes, l’une dite "naïve"
basée sur l’intensité des objets à détecter et sur leur mouvement et l’autre,
basée sur une approche probabiliste mettant en oeuvre une modélisation de
la couleur de l’objet et de son déplacement.
2.1 Approche naïve
L’approche naïve est basée sur la couleur, les caractéristiques spatiales et
temporelles des pixels de l’image. L’organigramme de l’approche est présenté
en Figure 2. Chaque image est traitée par deux processus de segmentation.
Les résultats de ces deux processus sont des images segmentées binaires. L’un
est appelé le masque d’intensité (MI) et l’autre le masque de gradient (MG);
5
Frame 1 Frame 2
Temporal difference(dT)
Intensity Mask
(MI)
Gradient Mask
(MG)
Frame 3
Resulting segmentation
MI∩MG∩dT
Temporal difference(dT)
Intensity Mask
(MI)
Gradient Mask
(MG)
MI∩MG∩dT
Resulting segmentation
Figure 2: Organigramme de l’approche naïve.
ce sont les résultats de segmentation basés respectivement sur le seuillage
d’histogramme d’intensités et la technique du gradient spatial. L’eau dans
la rivière et le bois ont des niveaux d’intensité assez différents, et le bois est
plus sombre que l’eau comme le montre la Figure 1.
Pour obtenir le masque d’intensité, nous utilisons l’analyse discriminante
linéaire de Fisher qui permet de trouver automatiquement le seuillage le plus
adéquat. Ce seuil optimal est obtenu en supposant l’ensemble de couleurs
de l’image modèlisé par deux distributions Gaussienne. Si la valeur d’un
pixel est dessous de ce seuil, le pixel est étiquêté 1 sinon 0 dans le masque
d’intensité. Pour obtenir le masque de gradient, nous utilisons le filtre de
Sobel. Un seuil est fixé empiriquement pour obtenir ce masque binaire.
Par ailleurs, la différence entre deux images (dT) pour chaque couple
d’images est calculée afin d’inclure les changements temporels. Grâce à un
seuil, nous construisons donc un troisième masque binaire. Nous combinons
ces trois masques binaires pour l’extraction d’objets. Nous montrons un
exemple des résultats obtenus avec cette approche naïve dans la figure 3.
Les résultats obtenus avec cette méthode sont plutôt bons contexte compte
tenu du contexte (fond dynamique). Pour comparaison, la figure 7 montre
les résultats obtenus sur la même scène avec plusieurs techniques de modéli-
sation de fond que l’on trouve dans la littérature. Cependant, cette méthode
présente plusieurs inconvénients. En particulier, les larges morceaux de bois
posent problème, leur coeur n’est pas segmenté correctement, il subsiste
de nombreuses fausses détections (des vagues considérées comme des bois
morts). Une des raisons possibles de ces dernières provient des seuils qui
sont difficiles à ajuster quelque soit les conditions météorologiques. Deux-
ièmement, l’analyse du gradient d’intensité fonctionne bien avec d’objets qui
peuvent ressembler à des bâtons (c’est-à-dire les petits morceaux ou longs ar-
6
Image MI MG F
Figure 3: Un exemple d’image d’entrée, le masque d’intensité MI, le masquede gradient MG et l’image de premier plan F associés.
bres), mais pour des pièces avec beaucoup de feuilles, la méthode ne donne
pas de bons résultats. Ainsi, il est possible de rater certaines régions in-
térieures appartenant a des bois larges. Pour résoudre ces problèmes, nous
proposons une méthode basé sur une approche probabilité de la détection
d’objets, qui s’appuie sur les caractéristiques basé couleur et sur le mouve-
ment des objets.
2.2 Approche probabiliste
Contrairement à l’approche précédente qui utilise des masques binaires, nous
introduisons ici des cartes de probabilités (valeurs entre 0 à 1) qui peuvent
ensuite être combinées par multiplication. Cela permet de repousser l’étape
de seuillage à la fin du processus, ce qui est théoriquement plus robuste que
l’application de plusieurs seuils.
Plus précisément, l’objectif de la segmentation est de créer une image
de premier plan F(t) pour chaque image I(t) au temps t. Un pixel spa-
tiotemporel dans l’image est notée par I(x, t). Un pixel x dans l’image de
premier plan F(t) peut avoir la valeur 1 ou 0 en fonction de son apparte-
nance au premier plan ou au fond de l’image, respectivement. Notez que
au temps t, en plus de l’image courante I(t), l’ensemble d’images précé-
dentes I(t− 1) = I(i)1≤i≤t−1 sont disponibles ainsi que les segmentations
F(t − 1) = F(i)1≤i≤t−1. La segmentation d’image basée pixel à l’instant
t peut alors être formulée par seuillage d’une probabilité a posteriori pour
chaque pixel x [Li et al., 2004], qui peut s’exprimer :
P (F(x, t)|I(x, t), I(t− 1),F(t− 1)) > s′
Dans un cadre très général, la probabilité a posteriori est conditionnée à
l’ensemble des images et des segmentations précédentes. En utilisant la règle
7
de Bayes, nous pouvons écrire :
P (I(x, t)|F(x, t), I(t− 1),F(t− 1))︸ ︷︷ ︸
Image term
P (F(x, t)|I(t− 1),F(t− 1))︸ ︷︷ ︸
Prior term
> s
Le terme "image" (ou un modèle image) est la probabilité que le pixel x ait
une certaine valeur d’intensité dans l’image I à l’instant t conditionnée par
le fait qu’il appartiente au premier plan. Ceci est lié à la distribution des
intensités à l’intérieur des objets ou dans le fond. Le terme "prior" dans
l’équation ci-dessus est la probabilité qu’un pixel x appartienne à un objet,
connaissant les images et les segmentations précédentes, indépendamment
de l’image courante.
Dans la suite, le terme "image" sera notée Pimage(x, t) et le terme "prior"
Pmov(x, t). La combinaison, notée Pobj(x, t), peut s’exprimer :
Pobj(x, t) = Pimage(x, t) · Pmov(x, t) (2)
2.3 Le modèle "image" pour les bois morts
Dans l’application de détection des bois morts, le modèle image utilise la
distribution des intensités du bois. Ainsi, nous proposons une approche
probabiliste basée sur l’intensité et sur sa variation temporelle au niveau
pixel. Ceci peut s’exprimez comme suit:
Pimage(x, t) = Pi(x, t) · Pt(x, t)
où Pi(x, t), nommée carte probabiliste des intensités contient la probabilité
d’un pixel d’être un pixel objet en fonction de sa luminosité, tandis que la
carte de probabiliste temporelle Pt(x, t) est calculée en fonction des varia-
tions de luminosité du pixel dans le temps. Nous observons dans les vidéos
que l’intensité des bois morts est inférieure à celle de l’eau, même dans les
zones d’ombres dues aux arbres environnants. Par ailleurs, cela ne change
pas significativement en présence de soleil. A titre d’exemple, la figure 4
montre les histogrammes de quelques morceaux de bois morts. Il est à tester
qu’il semble pertinent d’approximer la distribution des intensités du bois par
une distribution gaussienne avec une valeur fixée pour la moyenne et la vari-
ance (i.e. µwood, σ2wood). Pour trouver les valeurs pour µwood et σ2wood, nous
avons conduit des expériences sur différents morceaux de bois sous différentes
8
3.0
1.5
0
1.5
0
3.0
0
4.0
8.0
50 100 150 200 250
50 100 150 200 250
50 100 150 200 250
(a)
(b)
(c)
Figure 4: Un morceau de bois mort; (a) la partie de pixels de bois zooméeet des histogramme d’intensité correspondants marqué en rouge, (b) vert et(c) bleu rectangle.
conditions de luminosité.
Dans la figure 6, nous montrons un exemple de la carte de probabilité Piobtenue. Il a des valeurs élevées dans les régions contenant des bois mort,
mais aussi dans les régions ombragées car certains objets comme les piliers de
ponts ou les ombres des arbres environnants peuvent avoir la même intensité
que le bois mort. Par conséquent, des bois morts ne peuvent être extrait
et comptés uniquement sur l’intensité. Pour résoudre ce problème, nous
proposons de calculer une carte de probabilité temporelle noté Pt, qui est
basé sur la différence inter-trame ∆tI. On peut exprimer Pt de la mainère
suivante :
Pt(x, t) = Pt(x, t− 1) +H(∆tI(x, t))
où H ∈ [−1, 1] est une fonction pondération. Pour gérer le bruit et ignorer
les petites variations d’intensité en raison de la non uniformité du bois ou de
l’eau, H(∆tI) est nulle pour des valeurs relativement faibles de |∆tI|. Au
lieu d’utiliser un seuillage "dur" qui impliquerient un passage brusque de 0
9
−τ − B2 −τ −τ + B
2 τ − B2 τ τ + B
2
1
−1
H(∆tI)
∆tI
Figure 5: Représentation de la fonction pondération utilisée H(∆tI).
à 1 ou −1, nous utilisons la fonction linéaire par morceaux suivante :
H(∆tI) =
1 if ∆tI ∈ [−1,−τ − B2 ]
α∆tI + β if ∆tI ∈ [−τ − B2 ,−τ +
B2 ]
0 if ∆tI ∈ [−τ + B2 , τ −
B2 ]
α∆tI − β if ∆tI ∈ [τ − B2 , τ +
B2 ]
−1 if ∆tI ∈ [τ + B2 , 1]
où α = −1B
et β = 12 −
τB
. La définition de H nécessite cependant de fixer un
seuil τ et la valeur de B. Nous avons représenté graphiquement la fonction
H(∆tI) dans la figure 5.
La figure 6 montre un exemple de la carte de probabilité Pt d’un bois
mort. On constate que les valeurs de Pt sont plus élevées pour les pixels de
bois mort que pour ceux de l’eau.
Puisque nous nous attendons à ce que les morceaux de bois soient sombres
et en mouvement, les pixels de bois devraient avoir à la fois de hautes valeurs
de probabilités dans la carte Pi et dans la carte Pt. Il est donc pertinent de
multiplier les deux cartes de probabilité. On ignore ici le terme "prior" de
l’equation 2 et cette dernière devient :
Pobj(x, t) = Pimage(x, t) = Pi(x, t) · Pt(x, t)
et, l’image de premier plan F est obtenue par seuillage de la probabilité
combinée comme suit :
F(x, t) =
1 if Pimage(x, t) ≥ GTh
0 otherwise
où GTh est un seuil qui doit être choisi afin de limiter le nombre de fausses
10
Input frame I(t)1.0
0.8
0.6
0.4
0.2
1.0
0.8
0.6
0.4
0.2
Pi(t) Pt(t)> 1.0× 10
−2
8× 10−3
6× 10−3
4× 10−3
2× 10−3
Pimage(t) F(t)
Figure 6: Un exemple d’un bois mort avec les cartes de probabilité Pi, Pt,le modèle image Pimage et l’image de premier plan F obtenue.
détections sans négliger les parties importantes des morceaux de vrai-bois
morts.
Dans la figure 7, nous montrons les résultats obtenus avec ce modèle im-
age appliqué aux vidéos de bois morts. Pour comparaison, nous montrons
également les résultats obtenus avec quelques méthodes de modélisant de
fond de la littérature, notamment les GMM [Stauffer and Grimson, 2000],
le codebook [Kim et al., 2005], le VuMeter [Goyat et al., 2006] et notre ap-
proche naïve. On peut remarquer que les résultats des méthodes existantes
contiennent beaucoup de fausses détections. Les résultats obtenus avec notre
modèle image ont moins de fausses détections. Une des raisons est que nous
utilisons la distribution des intensités des bois dans notre modèle image.
11
CBGMMI(t) VuMeter NM IM
Figure 7: Deux morceaux de bois morts image originale I(t) avec les résultatscorrespondant obtenus avec le GMM [Stauffer and Grimson, 2000], le code-book [Kim et al., 2005] (CB), le VuMeter [Goyat et al., 2006], l’approchenaïve (NM) et le modèle d’image (IM).
C’est une information qui n’est pas utilisée dans le GMM, le codebook et le
Vumeter, par conséquent, ces modèles de fond détectent un grand nombre
de vagues.
3 Modèle basé mouvement
Pour avoir une bonne segmentation du fond en mouvement, nous pouvons
également inclure l’information mouvement. Les méthodes basées sur le
mouvement s’appuient généralement sur le mouvement observé dans la scène
surveillée. La détection d’objets peut être basée sur une différence entre le
mouvement des objets et le mouvement du fond. Cependant, la couleur et
le mouvement sont liés dans un fond en mouvement: les modèles de couleur
sont différents spatialement et peuvent être répétitifs dans le temps. Par
conséquent, ni la couleur ni le mouvement ne peuvent seuls être utilisé pour
Figure 8: Des bagages sur un tapis roulant, une voiture se déplaçant sur laroute et une bouteille flottant dans un rivière sont quelques exemples danslesquels le mouvement des objets a priori peut être obtenu.
12
réaliser une bonne détection d’objets dans un fond en mouvement. Ceci nous
conduit par conséquent vers une approche combinée, fondée sur la couleur
et le mouvement. Nous supposons qu’une information a priori sur les mou-
vements des objets sont disponible. Nous proposons qu’un modèle de mou-
vement permette d’apprendre, dans un processus hors ligne, les paramètres
du modèle adéquat pour chaque applications. Le modèle de mouvement est
conçu de sorte qu’il peut être utilisé en conjonction avec n’importe quelle
méthode de la soustraction de fond. De cette façon, pour détecter les objets,
nous mélangeons les informations de mouvement au niveau des objets avec
les informations de couleur au niveau pixel en utilisant un modèle Bayésien.
Nous rappelons ce modèle :
Pobj(x, t) = Pimage(x, t) · Pmov(x, t)
où Pimage(x, t) est modèle image et Pmov(x, t) est le terme d’a priori lié au
mouvement. Nous proposons un modèle pour ce terme d’a priori, qui est
basé sur les connaissances disponibles sur les déplacements d’objets, indépen-
damment des images précédentes. Nous ne considérons en effet que l’image
à l’instant précédent; ce qui revient à considérer le "premier ordre" dans le
temps de ce terme. Cela nous permet de modéliser le mouvement global
de l’ensemble des objets plutôt que le mouvement local de pixels considérés
indépendamment.
Le terme d’a priori de mouvement peut s’exprimer comme suit:
Pmov(x, t) = P (F(x, t)|I(t− 1),F(t− 1))
Nous considérons un modèle de mouvement probabiliste, en supposant que la
fonction de probabilité de transformation de l’objet Ptrans(θ,d) (c’est-à-dire
à la fois le mouvement en rotation et en translation) est connue a priori. Plus
précisement, notre modèle rigide de mouvements d’objets peut être exprimé
par l’équation suivante :
Pmov(x, t) =∑
ψ∈C(t−1)
∑
x′∈ψ
∑
(θ,d)|Tθ,c,d(x′)=x
Ptrans(θ,d)
où ψ est un objet de l’ensemble des objets C(t−1) considéré à l’instant t−1
comme étant dans le premier plan F . Nous supposons, que la rotation et la
13
translation des objets sont statistiquement indépendantes :
Ptrans(θ,d) = Protation(θ) · Ptranslation(d)
Ptranslation(d) est la probabilité de translation des objets apprise et nous
avons choisi de la modéliser par une Gaussienne N (µd,Σd). Protation(θ) est
la probabilité de rotation d’objets appris et nous choisir de modéliser ça par
un Gaussienne N (µθ, σθ). Après avoir combiné modèle d’image avec modèle
de mouvements nous obtenons une image de premier plan F par la seuillage
de la probabilité combinée comme :
F(x, t) =
1 if Pobj(x, t) ≥ s
0 otherwise
Dans la suite, nous combinons ce modèle de mouvement avec deux modèles
d’image. Dans un premier temps, nous utilisons la méthode basée sur un
mélange de Gaussiennes que nous modifions afin qu’il soit exploitable modèle
image. Plus précisement,
Pimage(x, t) = 1− PBG(x, t)
où PBG(x, t) correspond à la probabilité que le pixel x appartienne au fond
étant donné sa couleur, en utilisant le modèle basé sur Gaussienne. Nous
gardons le même nombre de Gaussiennes pour chaque pixel. Par ailleurs,
le modèle est appris hors ligne et n’est pas remis à jour dans le temps.
L’adéquation entre une valeur de pixel et le modèle testé est donné par la
Frame t1 Frame t1 − 1 Frame t2 Frame t2 − 1
I(t)
F without
neighborhood
F with p = 5
F with PMO
Figure 9: (a) Deux objets flottants à deux instants différents et les résultatscorrespondant obtenus avec (b) les GMM (c) les GMM modifiées et (d) lesGMM modifiées combinées avec notre modèle de mouvement.
14
Frame t1 Frame t1 + 10 Frame t2 Frame t2 + 10
(a) Originalimages
(b) F without
(c) F with
(d) Ground
︸ ︷︷ ︸
object 1
︸ ︷︷ ︸
object 2
Pmov
Pmov
truth
Figure 10: (a) Deux exemples de bois morts à deux instants différents et lesimages de premier plan correspondantes (b) sans modèle de mouvement (c)avec modèle de mouvement et (d) les vérités terrain correspondantes.
distance à la Gaussienne qui correspond le mieux. Ainsi, la probabilité est
calculée comme suit:
PBG(x, t) = max1≤i≤K
ωi(x)η(I(x, t), µi(x),Σi(x))
Dans un deuxième temps, nous utilisons le modèle image dédié au bois morts
et le combinons avec notre modèle de mouvement. Les paramètres du modèle
de mouvement sont appris hors ligne.
Nous appliquons notre méthode à des vidéos réelles. Dans la figure 9,
nous montrons les résultats obtenus avec la méthode basée sur les GMM et
les GMM modifiées avec et sans modèle de mouvement. On peut observer
que les résultats avec notre modèle de mouvement sont bons par rapport à
ceux obtenus avec les GMM [Stauffer and Grimson, 2000]. Dans la figure 10,
nous montrons que les résultats de détection des bois morts sont améliorés
lorsque nous combinons le modèle image avec le modèle de mouvement.
15
4 Modèle de fond basé fréquence
Dans de nombreuses situations, les mouvements du fond peuvent être consid-
érés comme périodiques. Les motifs produits par les couleurs peuvent varier
spatialement et apparaître périodiquement. De tels motifs sont référencés
sous le nom " texture dynamique " dans la littérature. Contrairement à la
couleur, la texture n’est pas la propriété d’un seul pixel, mais plutôt celle
d’un voisinage spatial autour d’un pixel donnée. C’est la raison pour laquelle
de telles situations sont difficilement modélisables par les méthodes de mod-
élisation du fond existante. En effet, dans de tels algorithmes, non seulement
chaque pixel est considéré indépendamment de ses voisins (pas de prise en
compte spatiale) mais également, d’évolution temporelle des pixels n’est pas
considérées.
Pour modéliser les textures spatio-temporelles formées par ces types de
fond, nous proposons donc d’utiliser un modèle fondé sur les fréquences
d’apparitions des couleurs du fond dans un voisinage autour de chaque pixel.
L’idée principale derrière notre approche est de modéliser les motifs spatio-
temporels de la couleur de la scène et d’utiliser ce modèle pour détecter les
objets. À notre connaissance, aucune approche basée sur la fréquence n’a
été précédemment utilisée pour la modélisation de fond.
4.1 La transformée de Fourier locale
D’abord, nous donnons quelques notations nécessaires dans la suite. Soit p
pixel dans l’espace-temps : p = (x, t). Un parallélépipède rectangle spa-
tiotemporel centré à un pixel peut dénoté :
Ω(p)=Ω(x,y,t)=[x−Nx2,··,x+Nx
2]×
[
y−Ny
2,··,y+
Ny
2
]
×[
t−Nt2,··,t+
Nt2
]
Il est important de noter que Nx, Ny et Nt doivent être choisis en fonc-
tion de la période maximale (spatiales et temporelles, respectivement) qui
est attendue dans les données. Soit u = (u, v, w) un vecteur dans la do-
maine fréquentielle. Prenons une séquence d’images en niveaux de gris à
chaque pixel p on considère la fonction f à valeur réelle qui associe une
couleur. Soit F (u,p) la fonction à valeurs complexes (u,p), correspondant
à la transformée de Fourier calculée au pixel p en prenant en compte le
16
xy
tt = 1 t1 t2 t3 t = τ
︸ ︷︷ ︸ ︸ ︷︷ ︸ ︸ ︷︷ ︸
Ny
Nx
Nt Nt Nt
Figure 11: Un exemple de séquence d’images contenant τ images pourl’apprentissage du fond. Trois spectre (n = 3) sont appris aux instants t1, t2et t3 au cours de la période d’apprentissage (i.e. t = 1 · · · τ). L’emplacementdu pixel considéré est représenté par des points rouges dans la fenêtre spatio-temporelle de taille ω = Nx ×Ny ×Nt.
voisinage spatio-temporel de p:
F (u,p) =∑
p′∈Ω(p)
f(p′)ω(p− p′)e−i2π((p−p′)·u)
où (·) représente un produit scalaire (p · u = ux+ vy + wt)
ω(x, y, t) =1
√
2πσ2xσ2yσ
2t
e(− x2
2σ2x− y2
2σ2y− t2
2σ2t
)
ω est la fonction Gaussienne tronquée au-delà de 3 fois l’écart type dans
chaque dimension. Dans notre méthode, nous prenons en couple l’amplitude
des coefficients de Fourier. Ces derniers sont données par :
S(u,p) = |F (u,p)|
Compte tenu du voisinage spatio-temporel, Nx × Ny × Nt coefficients sont
considérés. Un vecteur de caractéristiques appelé spectre v(p) est alors
construit pour chaque pixel p, en concaténant les valeurs des coefficients de
Fourier dans un vecteur 1D:
v(p) = [S(u1,p),S(u2,p) · · · S(uM ,p)]
17
4.2 Modèle de fond basé sur la transformée de Fourier locale
Le processus d’apprentissage du modèle de fond est le suivant : nous con-
sidérons en entrée τ images d’apprentissage pour calculer la transformée de
Fourier locale. Sur ces τ images, nous apprenons n spectres par emplace-
ment spatial x pendant cette période d’apprentissage. Nous supposons que la
durée τ est suffisamment importante, telle que n spectres distincts de durée
Nt puissent être calculés. Le modèle de base de fréquence à un emplacement
spatial x donné peut être exprimé comme l’ensemble des vecteurs spectre
appris :
M(x) =vibackground(x)
i=1···n
La figure 11 montre les voisinages spatiotemporels sur lesquels les spectres
d’apprentissagesont calculés (dans cet exemple, n = 3).
4.3 La détection d’objets
Pour la détection d’objets, nous stockons Nt d’images en mémoire. Nous
prenons des données spatio-temporelles autour de chaque pixel de ces images.
Pour chaque pixel p, le vecteur de caractéristiques spectrales v(x, t) est
comparé à l’ensemble des n vecteurs appris pour la position spatiale p. La
fonction d représente la dissimilarité entre v(x, t) et le modèle associé au
pixel x, à savoir M(x). Nous pouvons l’écrire:
d((x, t),M(x)) = mini=1···n
D(v(x, t),vibackground(x))
Nous considérons qu’un pixel x appartient à un objet en mouvement si d est
supérieur à un seuil ǫ. Par conséquent, l’ image de premier plan F(x, t) est
produite en utilisant l’équation suivante:
F(x, t) =
1 if d((x, t),M(x)) ≥ ǫ
0 otherwise
De cette façon, les perturbations dans la scène, qui génèrent des motifs spa-
tiotemporels différents de ceux du fond, sont identifiées et utilisées pour la
détection d’objets.
Nous avons appliqué notre méthode sur plusieurs vidéos, notamment les
vidéos de la base DynTex, les objets flottants dans la rivière. La Figure 12
montre une image extraite de chaque séquence. Nous avons comparé nos
18
Original images
GMM results
Modified GMM
Our results
Figure 12: Une image de chaque vidéo et les résultats obtenus avec le GMM[Stauffer and Grimson, 2000], le GMM modifié et notre modèle basé fréquen-tielle.
résultats avec les résultats obtenus avec le modèle basé sur les mélanges de
Gaussiennes. On peut noter que dans toutes les vidéos, il y a des fonds
dynamiques et le mélange de Gaussiennes génère de nombreuses fausses dé-
tections.
5 Conclusion et perspectives
Dans notre thèse, nous nous sommes concentrés sur les vidéos obtenues en
utilisant des caméras fixes filmant des scènes avec des fonds dynamiques.
Plus précisément, nous avons étudié des vidéos contenant des objets et
un fond animés de mouvements continus. Nous avons abordé la question
fondamentale de la segmentation d’objets dans les fonds en mouvement.
L’approche que nous avons choisie consiste en une soustraction de fond.
Dans notre travail, nous avons cherché à détecter des objets avec une
information a priori sur leur mouvement et leur apparence. En effet, dans
certaines applications, nous disposons d’informations a priori sur la couleur
des objets quand le type d’objets recherchés est connu à l’avance. Il peut
19
être utile d’utiliser ces informations dans la détection des objets. Nous avons
développé une approche dédié à la détection des bois morts flottants sur des
cours d’eau, dans laquelle nous utilisons la distribution de l’intensité des
bois morts. Le modèle obtenu est utilisé conjointement avec l’information
temporelle partiellement basée sur les différences inter-trame. Le modèle a
été testé pour les bois morts, mais nous pensons qu’il peut être appliqué à
d’autres cas où la distribution de couleur des objets recherchés est connue.
Nous avons comparé les résultats obtenus avec notre modèle d’image avec
les résultats des modèles de fond existants de la littérature.
Il est à noter que le modèle d’image que nous avons développé est dédié à
la détection de bois, qui est une application relativement restreinte. La méth-
ode est dépendante de la distribution d’intensité de bois dans l’environnement
étudié. Comme travaux futurs, une estimation non paramétrique de la prob-
abilité pourra être considérée, afin de traiter une plus large classe d’objets.
Une autre extension consisterait à considérer la distribution de la texture au
lieu de la couleur seule.
Par ailleurs, les objets peuvent être détectés en utilisant leurs caractéris-
tiques de mouvement. Lorsque l’information de mouvement est disponible
a priori, nous pouvons l’utiliser pour améliorer de la soustraction du fond.
En particulier, nous avons proposé un modèle de mouvement rigide. Nous
avons utilisé les connaissances a priori apprises d’une séquence d’images
par une méthode hors ligne.Nous avons montré que la détection d’objets est
améliorée en utilisant les connaissances de mouvement a priori. De cette
façon, les fausses détections dans le premier plan ont été réduites.
On peut remarquer que notre approche est basée sur un type très simple
de mouvement en l’occurrence une combinaison d’une translation et d’une ro-
tation. Comme travail futur, nous pourrions envisager un type plus général
de déplacements de l’objet qui pourrait, par exemple, contenir une com-
posante déformable ou un changement d’échelle. Une autre extension pour-
rait être la détection d’objets basé sur un 3D.
D’autre part, certains fonds sont composés de régions en mouvement qui
évoluent localement et périodiquement. Ces régions en mouvement créent
des textures dynamiques, des motifs spatiotemporels. Pour extraire ces mo-
tifs, nous avons développé une méthode basée sur une analyse fréquentielle,
qui puise son inspiration dans la segmentation de texture 2D. L’idée prin-
cipale derrière notre approche est de modéliser la couleur spatio-temporelle
20
des motifs présents dans la scène et d’utiliser le modèle pour la détection
d’objets. Notre modèle de fond repose sur la transformée de Fourier locale,
calculée sur la région spatio-temporelle autour de chaque pixel. Dans cette
méthode, un spectre est associé à chaque pixel. Un pixel est affecté au pre-
mier plan si son spectre est suffisamment différent des spectres de fond, qui
sont extraits pendant une période d’apprentissage.
Nous avons appliqué cette méthode sur plusieurs vidéos de la base Dyn-
Tex. Notre méthode produit de très bonnes segmentations en présence de
mouvements répétitifs des couleurs du fond. Nous avons comparé les résul-
tats de notre méthode avec le GMM et le GMM modifié. L’analyse compar-
ative montre qu’avec le modèle de fond basé sur la fréquence, nous obtenons
de meilleures détections d’objets dans des fonds complexes et très agités.
Cependant, notre modèle fréquentiel a quelques limitations. L’intervalle
de temps entre les périodes d’apprentissage et de détection ne doit pas être
trop long, ce qui peut être considéré comme une contrainte. En fait, si les
conditions de luminosité changent entre la phase d’apprentissage et la phase
de détection, les motifs spatiotemporels de couleur de fond ne seront pas
similaires à ceux appris, ce qui générera des fausses détections. En perspec-
tive, un modèle adaptatif pourrait être développé pour régler ces problèmes.
Par ailleurs, les textures spatiotemporelles pourraient être modélisées par un
mécanisme adaptatif selon que les zones de fond ont des mouvements lents
ou rapides. Il conviendrait alors d’étudier l’étendue temporelle de la texture
de chaque région. Cela pourrait être couplé avec un nombre de spectres
adaptatif, pour les zones se déplaçant lentement ou rapidement dans le fond.
References
Y. Goyat, T. Chateau, L. Malaterre, and L. Trassoudaine. Vehicle trajecto-
ries evaluation by static video sensors. In 9th IEEE International Confer-
ence on Intelligent Transportation Systems, pages 864–869, 2006. 5, 11,
12
K. Kim, T. Thanarat, H. Chalidabbhognse, D. Harwood, and L. Davis. Real
time foreground-background segmentation using codebook model. Real-
Time Imaging, 11(3):172–185, 2005. 4, 11, 12
21
L. Li, W. M. Huang, I.Y. H. Gu, and Q. Tian. Statistical modeling of
complex background for foreground object detection. IEEE Transactions
on Image Processing, 13(11):1459–1472, 2004. 7
C. Stauffer and W. Grimson. Learning patterns of activity using real-time
tracking. IEEE Transactions Pattern Analysis Machine Intelligence, 22
(8):747–757, 2000. 4, 11, 12, 15, 19
22