Ratreamento de Pessoas em Sequencias de Imagens Capturadas por uma
Camera Estatica
Flavio Sales Truzzi, Nicolau Leal Werneck, Anna Helena Reali Costa
(flavio.truzzi, anna.reali)@poli.usp.br, [email protected]
Laboratorio de Tecnicas Inteligentes (LTI)
Universidade de Sao Paulo (USP)
Av. Prof. Luciano Gualberto tv. 3, 158
05508-900 Sao Paulo, SP
Resumo
This paper presents a system for performing visual trac-
king of people running or walking in image sequences cap-
tured by static cameras. The system is divided into two
parts: detection, where an adaptive model of background
scene is subtracted from the current image, and tracking
using Kalman filter, where people are modeled in a simple
way to ensure efficiency. Tests were performed in the trac-
king of soccer players and people monitored by security ca-
meras, showing the effectiveness of the proposal.
Resumo
Este artigo apresenta um metodo para efetuar rastre-
amento visual de pessoas correndo ou caminhando em
sequencias de imagens capturadas por cameras estaticas.
O sistema se divide em duas partes: deteccao, utilizando
subtracao dos quadros de imagens por um modelo adap-
tativo de cena de fundo, e rastreamento utilizando o filtro
de Kalman, onde as pessoas sao modeladas de forma sim-
ples para garantir eficiencia do sistema. Testes foram exe-
cutados no rastreamento de jogadores em jogos de futebol
e de pessoas monitoradas por cameras de seguranca, mos-
trando a eficacia da proposta.
1. Introducao
Este artigo apresenta um sistema para o rastrea-
mento automatico de pessoas caminhando ou correndo em
sequencias de imagens capturadas por cameras fixas uti-
lizando o filtro de Kalman. O rastreamento de pessoas e
uma tarefa complexa devido a heterogeneidade da fisio-
nomia humana, as variabilidades da iluminacao do ambi-
ente, aos problemas de oclusao na cena. Aplicacoes como
o rastreamento de jogadores de futebol e de pessoas mo-
nitoradas por cameras de seguranca podem ainda apresen-
tar mudancas bruscas na trajetoria e velocidade dos alvos, e
multiplos alvos podem ser detectados em um mesmo qua-
dro de imagem, causando oclusao entre os mesmos. No
caso de jogos de futebol, a maioria dos estadios nao pos-
sui cobertura superior, o que ocasiona a variacao da in-
tensidade de iluminacao natural no decorrer do dia ou das
condicoes climaticas, alem de tambem poder ter dificul-
dades no rastreamento com o uso de iluminacao artificial
em jogos noturnos, com sombras mais intensas, entre ou-
tros problemas.
No entanto, os resultados de um bom rastreamento nestes
cenarios possibilitam diversas aplicacoes, dentre as quais al-
gumas tem o foco em informacoes estatısticas, permitindo
avaliar aspectos como, por exemplo, a velocidade media e
a distancia percorrida pelos jogadores durante uma partida
de futebol [2], areas mais comumente frequentadas por pes-
soas monitoradas em aeroportos, entre outras.
O sistema aqui proposto realiza deteccao de alvos atraves
da subtracao de um modelo de fundo adaptativo da imagem
corrente, detectando alvos que nao pertencem ao fundo de
cena, supressao de ruıdos da imagem resultante por meio
da aplicacao de operadores morfologicos de fechamento e
abertura e rastreamento de cada alvo na cena, representa-
dos por retangulos envolventes aos contornos dos alvos de-
tectados, utilizando filtro de Kalman.
O restante do artigo esta organizado da seguinte forma.
A secao 2 descreve alguns trabalhos correlatos, na area de
rastreamento de pessoas em movimento. A secao 3 detalha
a metodologia aplicada no desenvolvimento do sistema de
rastreamento visual aqui proposto. A secao 4 indica os re-
sultados alcancados pelo sistema desenvolvido quando sao
aplicadas imagens de jogos de futebol e de monitoramento
de aeroportos. Finalmente, a secao 5 fornece algumas con-
clusoes e delineia possıveis trabalhos futuros.
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
248
2. Trabalhos Correlatos
Rastreamento de objetos e um tema classico em Visao
Computacional, e diversas tecnicas ja foram desenvolvi-
das para realizar esta tarefa. Elas se diferenciam principal-
mente na formas de detectar e modelar os objetos, mas o
uso de ferramentas probabilısticas na criacao dos algorit-
mos tem se tornado cada vez mais frequente. Diferentes
tecnicas tambem podem explorar peculiaridades do cenario
de aplicacao e explorar diferentes nıveis de simplificacao.
Em alguns sistemas realiza-se a segmentacao de objetos
utilizando tecnicas como a transformada watershed. Pela
generalidade destas tecnicas estas abordagens sao conheci-
das como “livre de modelo” [5]. Apesar da maior flexibili-
dade, o uso destas tecnicas nao garante que as segmentacoes
serao corretas, e o custo computacional pode ainda ser im-
peditivo em muitas aplicacoes. Outras abordagens utilizam
modelos ainda bastante flexıveis como esqueletos [7] e cur-
vas quadraticas [4]. O trabalho apresentado aqui utiliza ape-
nas retangulos que envolvem os objetos de interesse, como
tambem utilizado por Xu et al. [8], por exemplo. Tambem
foi utilizada a subtracao do fundo da cena com um modelo
adaptativo de fundo, o que aproveita a condicao de camera
parada.
A parte de inferencia probabilıstica dos sistemas pode
utilizar desde algoritmos mais sofisticados como filtros de
partıculas, ou o CONDENSATION [7], ate o mais sim-
ples filtro de Kalman [4, 8]. No trabalho aqui apresentado,
utiliza-se um filtro de Kalman para rastrear cada objeto, e
ainda estimar os parametros do seu retangulo envolvente. O
sistema nao se resume a execucao deste filtro, entretanto.
Parte do trabalho complementar e conseguir com sucesso
criar novos filtros quando novos objetos surgem na cena, e
evitar falhas devido a oclusao de objetos.
3. Metodologia
A arquitetura do sistema pode ser vista no diagrama
de blocos da figura 1, onde se tem a entrada de vıdeo
no bloco que efetua a deteccao de alvos. Esta deteccao e
feita subtraindo um modelo de cena de fundo do quadro
atual do vıdeo. A imagem resultante e entao processada por
operadores morfologicos para que sejam extraıdos ruıdos,
fornecendo melhores medidas de alvos. Sao entao defini-
dos retangulos envolventes dos alvos detectados no quadro
corrente, configurando uma observacao. Esta observacao e
comparada com a estimativa atual do objeto de interesse e
a correcao derivada desta comparacao atualiza a estimativa
corrente, visando melhora-la. Inicialmente, a estimativa ini-
cial do alvo e sua localizacao sao geradas pelo bloco de
inicializacao do filtro de Kalman.
Nas secoes subsequentes, cada bloco e melhor detalhado.
Figura 1. Arquitetura do sistema de rastrea-
mento de pessoas caminhando ou correndo.
3.1. Deteccao de Alvos
A deteccao dos alvos foi realizada atraves da tecnica de
subtracao de imagens utilizando um modelo de fundo adap-
tativo [6]. O fundo e modelado por uma mistura de gaus-
sianas dada por (µ(n)k
, σ(n)k
, p(n)k
), onde µk e a media,σk e
a raiz do traco da matriz de covariancia e pk e o peso da
n-esima distribuicao no quadro k. O modelo de fundo pode
ser treinado antes ou mesmo durante a execucao do sistema
de rastreamento. A distribuicao e atualizada para cada novo
pixel observado Ik e identificado como fundo da seguinte
forma:
µk = (1 − ρ)µk−1 + ρIk (1)
σ2k
= (1 − ρ)σ2k−1 + ρ(Ik − µk)T (Ik − µk) (2)
onde ρ ∈ [0, 1] e a taxa de atualizacao. Correspondente-
mente, o peso p(n)k
desta n-ezima distribuicao atualizada e
aumentado, refletindo a parte dos dados explicada por essa
distribuicao.
A cada novo quadro, de sua banda em nıveis de cinza e
efetuada a subtracao de uma imagem de fundo construıda,
tambem em nıveis de cinza, a partir da media µ do modelo
de fundo atual. O resultado dessa etapa e entao binarizado e
operacoes morfologicas de fechamento e abertura sao exe-
cutadas para extracao de ruıdos. Os contornos dos alvos de-
tectados sao armazenados em chain-codes com conectivi-
dade 8. Todos os contornos com area inferior a um valor
de limiar em pixels sao descartados. Os contornos resultan-
tes tem entao seu retangulo envolvente calculado e armaze-
nado, assim como seu correspondente centro de area.
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
249
3.2. Rastreamento com o Filtro de Kalman
Para cada um dos alvos detectados e entao criado um fil-
tro de Kalman para rastrea-lo. O vetor de estadoX e o vetor
de medida Z do filtro de Kalman utilizados sao:
X = [xc yc xc yc ω h]T (3)
Z = [xc yc ω h]T (4)
onde (xc, yc) e a coordenada do centro do retangulo envol-vente, xc e a velocidade em x e yc e a velocidade em y
do retangulo envolvente, calculadas pelos dois ultimos qua-
dros, ω e o comprimento do lado do retangulo envolvente
no eixo x e h, no eixo y.
A matriz de transicao A, a matriz de medicao H , a ma-
triz de covariancia do ruıdo do processo Q e a matriz de co-
variancia do ruıdo da medicao R foram definidas como:
A =
1 0 T 0 0 00 1 0 T 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1
Q =
10 0 0 0 0 00 10 0 0 0 00 0 10 0 0 00 0 0 10 0 00 0 0 0 10 00 0 0 0 0 10
H =
1 0 0 00 1 0 00 0 1 00 0 0 1
R =
5 0 0 00 5 0 00 0 50 00 0 0 50
onde T representa a variavel tempo.
Para iniciar o filtro de Kalman que rastreia um determi-
nado alvo, e utilizado o centro (xc, yc) e os lados, ω e h,
do retangulo envolvente do alvo; a velocidade (xc, yc) ini-cial e considerada nula.
O filtro entao executa seu ciclo de predicao e correcao,
esta ultima utilizando a observacao realizada pelo modulo
de deteccao do alvo no ultimo quadro capturado. A
observacao utilizada para a correcao e aquela correspon-
dente ao alvo detectado que apresentar menor distancia eu-
clidiana em relacao as predicoes efetuadas no instante
atual, desde que esta distancia nao ultrapasse um va-
lor de limiar estipulado em funcao das velocidades de
locomocao dos alvos na cena (no caso, usou-se o va-
lor de 50 pixels). Neste caso, nenhuma observacao e
utilizada na estimacao do alvo em questao. Vale ainda ob-
servar que cada captura possui incertezas intrınsecas
que fazem com que as deteccoes sejam sempre diferen-
tes entre si em quadros distintos; assim, se a estimativa
for exatamente a mesma por ate 5 quadros consecuti-
vos, considera-se que o filtro divergiu decorrente de uma
oclusao prolongada ou da saıda do alvo do campo da ima-
gem. Sempre que um novo alvo entra no campo da
imagem, um novo filtro de Kalman e criado para ras-
trea-lo.
4. Resultados Experimentais
Foram conduzidos diversos experimentos para testar o
rastreamento de jogadores de futebol em vıdeos captura-
dos em jogos reais e de pessoas caminhando capturadas em
vıdeos de vigilancia utilizados nos trabalhos de De Bem
[3] e de Arnaut [1], alem de vıdeos do banco de ima-
gens PETS2006, utilizadas no Ninth IEEE International
Workshop on Performance Evaluation of Tracking and Sur-
veillance.
A implementacao do sistema foi feita em C++ utilizando
a biblioteca OpenCV, para processamento de imagens, e a
biblioteca Boost para a implementacao do filtro linear de
Kalman.
4.1. Resultados para os dados de vigilancia
Na figura 2 esta representado um fundo que foi treinado
utilizando o primeiro quadro da sua sequencia de imagens,
com uma taxa de atualizacao ρ = 0, 01.
Figura 2. Fundo treinado para imagens de vi-
gilancia.
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
250
A figura 3 exemplifica o resultado do algoritmo de
subtracao de imagens para um instante aleatorio da
sequencia, apos a aplicacao dos operadores morfologicos.
Observam-se tres aglomerados significativos de pixels, mas
os dois menores serao eliminados por possuırem menos pi-
xels do que o limiar estipulado.
Figura 3. Resultado da subtracao de imagem.
A figura 4 mostra a saıda do sistema, em que estao re-
presentados com uma cruz a predicao e a estimativa (prati-
camente sobrepostos), e o retangulo envolvente ao alvo. O
caminho percorrido pelo alvo rastreado numa sequencia de
imagens pode ser visto na figura 5.
Figura 4. Resultado do algoritmo.
Na figura 6 esta representado o rsultado da subtracao de
imagens para outro instante aleatorio do vıdeo. Na figura
7 esta a saıda do sistema para esse instante, mostrando o
retangulo envolvente e tambem a predicao (estimativa a pri-
ori) e a estimativa (estimativa a posteriori).
4.2. Resultados para os dados de futebol
Neste experimento o modelo de fundo foi treinado a uma
taxa de atualizacao ρ = 0, 01. Na figura 8 esta representado
Figura 5. Caminho rastreado.
Figura 6. Resultado da subtracao de imagem.
o modelo de fundo basico que foi utilizado para a etapa de
deteccao.
Pode-se notar na figura 9 os varios aglomerados de pixels
correspondentes aos jogadores e o resultado do seu rastrea-
mento na figura 10, podendo notar que alguns alvos nao es-
tavam sendo rastreados devido a limitacao da area mınima
em pixels utilizada no sistema. Na figura 11 sao mostrados
os caminhos percorridos pelos jogadores numa sequencia
de imagens.
Figura 7. Saıda do sistema.
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
251
Figura 8. Modelo de fundo do campo de Fu-
tebol.
Figura 9. Resultado da subtracao de imagem.
4.3. Resultados para os dados do PETS2006
Tambem foi utilizado um banco de dados do PETS2006,
mais especificamente o Dataset S1 - Take 1-C camera 3. Na
figura 12 esta representado o modelo de fundo treinado uti-
lizando uma taxa de atualizacao ρ = 0, 53. Na figura 13 estao resultado da etapa de subtracao para um instante aleatorio
da sequencia. Pode-se notar muito ruıdo no resultado, de-
vido ao pouco tempo de treinamento que foi utilizado para a
geracao do modelo de fundo; inclusive, este foi um dos mo-
tivos para o uso de uma taxa de atualizacao razoavelmente
alta, em comparacao com as dos testes anteriores.
A saıda do sistema e mostrada na figura 14, onde
predicao e estimacao estao proximas, mas nao sobrepos-
tas. O caminho percorrido pelo alvo em uma sequencia de
imagens pode ser visto na figura 15.
5. Conclusao e Trabalhos Futuros
O presente trabalho foi fortemente baseado no trabalho
de Xu et al. [8], pois o modelo simplificado la utilizado
no rastreamento com filtro de Kalman ajuda a aumentar o
Figura 10. Resultado do rastreamento no fu-
tebol.
Figura 11. Caminho rastreado no futebol.
desempenho do sistema, embora a estimativa do retangulo
envolvente ter se mostrada muito baseada na medicao, so-
frendo muitas vezes uma grande variacao.
Para se melhorar a estimativa inicial para a velocidade,
ao inves de se assumir que seu valor inicial e nulo, pretende-
se usar alguns quadros para realizar uma melhor estimativa
inicial. Alem disso, pretende-se conferir a deteccao de um
novo alvo no quadro por um numero seguido de quadros, fa-
zendo com que, apenas apos confirmacao e boa estimativa
inicial, novos filtros sejam criados. Tambem se pretende a
adotar limites superior e inferior, ao inves de apenas infe-
rior, como foi feito, para a definicao de area de aceite de
aglomerados de pixels como sendo alvos. Ainda neste con-
texto, estes limites sofreriam ajustes em funcao da posicao
que os alvos se encontram na imagem. Estes ajustes sao de-
finidos em funcao da posicao da camera estatica em relacao
a cena, levando-se em conta o modelo de projecao perspec-
tiva da imagem.
O filtro de Kalman e o respectivo modelo utilizado
por ele neste trabalho mostraram-se uma simples e efici-
ente alternativa para o rastreamento, e util para se estimar
a posicao dos alvos quando ocorre uma oclusao parcial.
Como ficou evidente nos experimentos, o sistema desen-
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
252
Figura 12. Modelo de fundo treinado.
Figura 13. Resultado da subtracao.
volvido pode ser utilizado nao apenas para o rastreamento
de jogadores em jogos de futebol, mas tambem para rastre-
amentos em vıdeos de vigilancia, com resultados bastante
eficazes.
Figura 14. Saıda do sistema.
Figura 15. Caminho percorrida pelo alvo ras-
treado.
Agradecimentos
Os autores agradecem o apoio do Conselho Nacio-
nal de Desenvolvimento Cientıfico e Tecnologico (CNPq,
N.475690/2008-7 e N.119511/2009-6), da Coordenacao
de Aperfeicoamento de Pessoal de Nıvel Superior (CA-
PES) e da Fundacao de Amparo a Pesquisa do Estado de
Sao Paulo (FAPESP, N.2008/03995-5).
Referencias
[1] R. D. Arnaut. Rastreamento de jogadores de futebol em
sequencias de imagens. PhD thesis, Universidade de Sao
Paulo, Brazil, 2007.
[2] J. Borg. Detecting and Tracking Players in Football
Using Stereo Vision. PhD thesis, Linkopings Universi-
tet,Institutionen for systemteknik, 2007.
[3] R. A. de Bem. Uma abordagem livre de modelo para rastrea-
mento de objetos em sequencias de imagens. PhD thesis, Uni-
versidade de Sao Paulo, Brazil, 2007.
[4] R. A. de Bem and A. H. R. Costa. Rastreamento visual de
multiplos objetos utilizando uma abordagem livre de modelo.
In Anais do XVI Congresso Brasileiro de Automatica, pages
2760–2765, 2006.
[5] H. T. Nguyen and M. Worring. Multifeature object tracking
using a model-free approach. In CVPR, pages 1145–1150.
IEEE Computer Society, 2000.
[6] C. Stauffer and W. E. L. Grimson. Adaptive background mix-
ture models for real-time tracking. In Conference on Compu-
ter Vision and Pattern Recognition. CVPR 1999), pages 2246
– 2252. IEEE Computer Society, 1999.
[7] D. Tweed and A. Calway. Tracking many objects using su-
bordinated condensation. In P. L. Rosin and A. D. Marshall,
editors, BMVC. British Machine Vision Association, 2002.
[8] M. Xu, J. Orwell, L. Lowey, and D. Thirde. Architecture and
algorithms for tracking football players with multiple came-
ras. Vision, Image and Signal Processing, IEE Proceedings,
152(2):232 – 241, 8 2005.
04-07 de Julho - FCT/UNESP - P. Prudente VI Workshop de Visão Computacional
253