dc_objecttracking4.0 -b.pdf

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẶNG THỊ THU HOA

THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF

GAUSSIAN MODEL VÀ PARTICLE FILTER

(Object tracking based on Mixture of Gaussian Model and

Particle Filter)

ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH – 2013

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẶNG THỊ THU HOA

THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF

GAUSSIAN MODEL VÀ PARTICLE FILTER

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

MÃ SỐ CHUYÊN NGÀNH: 60.48.01

ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ

HƯỚNG DẪN KHOA HỌC

TS. NGUYỄN THANH BÌNH

TP. HỒ CHÍ MINH - 2013

Đề cương luận văn thạc sĩ

1

MỤC LỤC

MỞ ĐẦU................................................................................................................... 2

Động lực nghiên cứu, các thách thức .................................................................. 2

Bố cục của đề tài ................................................................................................ 3

NỘI DUNG ............................................................................................................... 4

CHƯƠNG 1- GIỚI THIỆU...................................................................................... 4

1.1 Giới thiệu đề tài.......................................................................................... 4

1.2 Nội dung đề tài........................................................................................... 5

Phát biểu bài toán ....................................................................................... 5

Giới hạn đề tài............................................................................................ 5

1.3 Mục tiêu đề tài............................................................................................ 5

1.4 Phương pháp nghiên cứu ............................................................................ 6

CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ................................ 7

2.1 Giới thiệu về các giải thuật ......................................................................... 7

2.2 Các công trình nghiên cứu liên quan........................................................... 9

CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ HƯỚNG TIẾP CẬN 11

3.1 Quá trình phát hiện và theo vết đối tượng ................................................. 11

3.1.1 Phát hiện đối tượng chuyển động (Moving object detection) ............ 12

3.1.2 Mô hình đối tượng (Object Modeling).............................................. 13

3.2 Giải thuật đề xuất ..................................................................................... 17

3.2.1 Object Extraction from background.................................................. 17

3.2.2 Object Tracking................................................................................ 19

CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC................................................. 23

4.1 Kết quả dự kiến ........................................................................................ 23

4.2 Phương pháp đánh giá kết quả .................................................................. 23

4.3 Những đóng góp của nghiên cứu .............................................................. 23

DỰ KIẾN KẾ HOẠCH THỰC HIỆN................................................................... 24

TÀI LIỆU THAM KHẢO


2

MỞ ĐẦU

Động lực nghiên cứu, các thách thức

Theo vết đối tượng (Object Tracking) là bài toán thuộc lĩnh vực thị giác máy

tính. Trong mười năm trở lại đây, cùng với tốc độ phát triển của khoa học kỹ thuật,

con người càng có nhu cầu sử dụng các hệ thống thông minh với mức độ tự động

hóa ngày càng cao. Một số ứng dụng của lĩnh vực thị giác máy tính bao gồm hệ

thống: kiểm soát quy trình (trong lĩnh vực robot), điều hướng (trong giao thông và

robot), phát hiện sự kiện (an ninh và giám sát), mô hình hóa đối tượng (phân tích

ảnh y khoa), giám sát tự động (trong các ứng dụng sản xuất).

Trong lĩnh vực an ninh-giám sát (security and surveillance), thị giác máy tính

được ứng dụng rất nhiều. Hệ thống giám sát (Surveillance system) bao gồm ba quy

trình : Xác định đối tượng (Object extraction), theo vết đối tượng (Object tracking)

và nhận dạng hành vi (Action recognition). Từ đó lưu trữ thông tin thu thập được

vào cơ sở dữ liệu hoặc phát hiện bất thường để đưa ra cảnh báo kịp thời.

Sơ đồ quy trình của hệ thống giám sát

Theo vết đối tượng trong video có thể định nghĩa là bài toán xác định vị trí của

đối tượng theo thời gian khi đối tượng chuyển động. Tùy vào từng ứng dụng cụ thể

mà bộ theo vết đối tượng (Tracker) cung cấp các thông tin khác nhau về đối tượng

như hình dáng, diện tích, tọa độ trung tâm, hướng chuyển động, … để từ đó có thể

đưa ra dự báo về vị trí di chuyển tiếp theo của đối tượng hoặc nhận dạng hành vi để

đưa ra cảnh báo cho những hành động bất thường.

Thu thập hình ảnh

Phát hiện đối tượng

Theo vết đối tượng

Nhận dạng hành vi

Lưu trữthông tin

Cảnh báo


3

Bài toán theo vết đối tượng là bài toán phức tạp vì trong video quan sát có thể

xuất hiện các vấn đề:

- Nhiễu do độ phân giải của camera thấp, do điều kiện khách quan (thời tiết,

kỹ thuật ghi hình, ánh sáng)

- Đối tượng có chuyển động phức tạp, tốc độ nhanh.

- Đối tượng có kích thước thay đổi, bị che khuất bởi đối tượng khác

- Sự thay đổi của độ chiếu sáng, góc chiếu sáng

- Đối tượng có màu sắc giống với cảnh nền.

- Đối tượng di chuyển khỏi vùng quan sát và xuất hiện trở lại

Ngoài ra, yêu cầu theo vết đơn đối tượng hoặc đa đối tượng, hình ảnh thu thập từ

một hoặc nhiều camera, yêu cầu xử lý thời gian thực cũng là những thách thức lớn

trong bài toán theo vết đối tượng.

Vì vậy, theo vết đối tượng là lĩnh vực vẫn được các nhà khoa học quan tâm nghiên

cứu.

Bố cục của đề tài

Luận văn chia thành 4 chương:

- Chương 1: Giới thiệu về đề tài và nội dung sẽ nghiên cứu.

- Chương 2: Tổng quan các giải thuật đã được đề xuất, các công trình nghiên

cứu liên quan đến đề tài.

- Chương 3: Trình bày các hướng tiếp cận để phân tách và giải quyết bài toán

theo vết đối tượng. Các giải thuật đề xuất cũng sẽ được trình bày trong

chương này.

- Chương 4: Sẽ dự kiến kết quả đạt được, đánh giá kết quả và qua đó nêu lên

những đóng góp của đề tài nghiên cứu.


4

NỘI DUNG

CHƯƠNG 1- GIỚI THIỆU

Chương một sẽ giới thiệu về vấn đề, mục tiêu và nội dung nghiên cứu của đề

tài, giới hạn của đề tài và phương pháp nghiên cứu.

1.1 Giới thiệu đề tài

Hiểu một cách đơn giản, theo vết đối tượng là bài toán xác định tọa độ của đối

tượng tại mỗi khung hình (frame) trong đoạn video quan sát khi đối tượng chuyển

động.

Một vài ứng dụng quan trọng của bài toán theo vết đối tượng như:

- Giám sát tự động (Automated video surveillance): trong những ứng dụng

này hệ thống thị giác máy tính được thiết kế để kiểm soát (monitor) những

chuyển động trong một vùng (area), xác định đối tượng chuyển động và cảnh

báo khi thấy bất kỳ tình huống khả nghi nào. Đòi hỏi hệ thống phải đủ mạnh

để phân biệt được các thực thể tự nhiên và con người.

- Robot vision: với robot tự động, hệ thống điều hướng (navigation) cần phải

nhận biết được chướng ngại vật (obstacle) trên đường đi. Và nếu đó là những

đối tượng di chuyển, robot cần kích hoạt hệ thống theo vết thời gian thực để

tránh va chạm.

- Điều phối giao thông (traffic monitoring): Trên các đại lộ hoặc các trục

đường chính, giao thông được giám sát liên tục qua camera. Bất kỳ phương

tiện nào vi phạm luật giao thông hoặc liên quan đến những hành vi phạm

pháp khác đều dễ dàng được phát hiện nếu hệ thống giám sát có tích hợp tính

năng theo vết đối tượng.

- Animation: giải thuật theo vết có thể sử dụng để mở rộng kỹ thuật làm phim

hoạt hình

- Ngoài ra còn những ứng dụng trong motion-based recognition, video

indexing, human-computer interaction

Khi xem xét bài toán theo vết đối tượng cần quan tâm đến cách biểu diễn đối tượng

(object representation), lựa chọn đặc trưng phù hợp (feature selecton), mô hình hóa

đối tượng và chuyển động của đối tượng dựa trên các đặc trưng. Có nhiều phương


pháp được đề xuất để giải quyết bài toán theo vết đối tượng. Tùy vào môi trường

quan sát, ngữ cảnh, mục tiêu quan sát mà lựa chọn các giải thuật khác nhau.

1.2 Nội dung đề tài

Vấn đề đặt ra là làm sao từ một đoạn video quan sát, ta xác định được đâu là

đối tượng đang chuyển động, theo dõi sự di chuyển của đối tượng và xây dựng quỹ

đạo chuyển động của đối tượng.

Phát biểu bài toán

Cho trước tập dữ liệu là đoạn video chứa đối tượng cần theo vết

Dữ liệu đầu vào (input): đoạn video chứa đối tượng đang chuyển động.

Dữ liệu đầu ra (output): sơ đồ quỹ đạo chuyển động của đối tượng

input output

Giới hạn đề tài

Như đã phân tích trong phần mở đầu, có nhiều thách thức trong bài toán theo

vết đối tượng khiến cho bài toán trở nên rất phức tạp. Vì vậy, mỗi giải thuật đề xuất

đều kèm theo những giả thiết quy định những điều kiện ràng buộc nhất định. Trong

nghiên cứu này luận văn chỉ xác định đối tượng là con người, dữ liệu từ một

camera, và quan sát được thực hiện trong điều kiện ánh sáng tốt.

1.3 Mục tiêu đề tài

Mục tiêu nghiên cứu là tìm hiểu các kiến thức có liên quan đến hệ thống

giám sát, tìm hiểu về các giải thuật để theo vết đối tượng, xây dựng được một giải

thuật hiệu quả. Cụ thể, phát hiện được đối tượng chuyển động, phân tách đối tượng

khỏi cảnh nền và đối tượng khác, xác định tọa độ của đối tượng trong mỗi khung

hình, liên kết các tọa độ để có được quỹ đạo chuyển động của đối tượng.

Giải thuật theo

vết đối tượng


6

1.4 Phương pháp nghiên cứu

Luận văn sẽ đi từ việc tham khảo các công trình nghiên cứu trước đây liên

quan đến bài toán theo vết đối tượng

- Xem xét các giải thuật tác giả đã sử dụng

- Phân tách các giải thuật theo từng giai đoạn

- Tổng hợp và phân loại thuật toán dựa trên cách lựa chọn đặc trưng và biểu

diễn đối tượng

- Đánh giá ưu điểm của từng thuật toán cũng như những hạn chế còn tồn tại

Từ đó lựa chọn thuật toán hiệu quả nhất tại mỗi giai đoạn, kết hợp các thuật toán để

xây dựng nên một giải thuật giải quyết bài toán theo vết đối tượng trong những điều

kiện ràng buộc đã nêu trên.

Hiện thực giải thuật bằng công cụ Matlab. So sánh kết quả đạt được với kết quả của

các công trình nghiên cứu trước đó để đánh giá mức độ hiệu quả của giải thuật.

Kết luận chương 1:

Chương 1 đã nêu lên các ứng dụng của hệ thống theo vết đối tượng, trình bày về

nội dung nghiên cứu, mục tiêu và phương pháp nghiên cứu.


7

CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Chương hai sẽ tổng hợp một số phương pháp nghiên cứu và trình bày một vài

nghiên cứu liên quan đến đề tài

2.1 Giới thiệu về các giải thuật

Bài toán theo vết đối tượng đặt ra nhiều vấn đề cần xem xét khi tìm kiếm giải

thuật. Như mục tiêu là con người hay phương tiện? Theo vết đơn đối tượng hay đa

đối tượng? Môi trường trong nhà hay ngoài trời? Ứng dụng với mục đích phát hiện

hành vi bất thường hay ứng dụng theo vết trong cảnh quay thi đấu trong thể thao?

Vì ứng dụng rộng rãi của bài toán mà đã có rất nhiều nhà nghiên cứu đề xuất

và phát triển các giải thuật khác nhau.

[1] phân chia các kỹ thuật theo vết đối tượng thành 4 dạng:

- Theo vết dựa trên vùng đối tượng

(Tracking based on a moving object region)

Giải thuật này chủ yếu dựa vào thuộc tính của blob như kích thước, màu sắc, hình

dạng, vận tốc (velocity), trọng tâm (centroid). Ưu điểm của giải thuật là thời gian

tính toán nhanh và hiệu quả với số lượng đối tượng ít. Hạn chế của giải thuật là

không hiệu quả khi đối tượng bị che khuất bởi đối tượng khác trong trường hợp

nhiều đối tượng.

- Theo vết dựa trên đường nét nổi bật của đối tượng

(Tracking based on an active contour of a moving object)

Contour của đối tượng được biểu diễn bởi một snake. Giải thuật chủ yếu dựa trên

boundary của đối tượng. Ưu điểm là có hiệu quả trong trường hợp theo vết người đi

bộ (pedestrian) bằng cách lực chọn đường nét của đầu; có thể cải thiến thời gian

tính toán. Hạn chế là không giải quyết được bài toán đối tượng bị che khuất một

phần (partial occlusion) và nếu đối tượng bị che khuất hoặc hai đối tượng chồng lấp

lên nhau một phần trong quá trình khởi tạo (tức là ở những frame đầu tiên) thì sẽ

gây ra lỗi.

- Theo vết dựa trên mô hình hóa đối tượng

(Tracking based on moving object model)

Mô hình của đối tượng thường được quy về mô hình hình học của đối tượng trong

không gian 3D và giải thuật sẽ định nghĩa tham số để xác định đối tượng. Giải thuật

này giải quyết được bài toán che khuất một phần nhưng lại ảnh hưởng đến thời gian


8

xử lý. Ưu điểm của giải thuật là có độ chính xác cao khi số lượng đối tượng không

nhiều.

- Theo vết dựa trên xác định đặc trưng của đối tượng

(Tracking based on selected features of moving object)

Lựa chọn những đặc trưng tiêu biểu của đối tượng và xem xét các đặc trưng đó qua

các frame liên tiếp để xác định đối tượng di chuyển và theo vết. Khi đối tượng bị

che khuất, một hoặc hai đặc trưng không thể sử dụng, vẫn có thể dựa vào một trong

những đặc trưng còn lại. Tuy nhiên, lại nảy sinh bài toán gom cụm đặc trưng

(feature clustering), làm sao xác định được những đặc trưng nào là thuộc cùng một

đối tượng trong suốt quá trình theo vết (trường hợp theo vết nhiều đối tượng).

Trong [2] theo vết đối tượng được phân loại thành ba phương pháp:

- Theo vết dựa trên điểm (Point tracking)

Đối tượng được biểu diễn bằng tập các điểm và các điểm này được liên kết dựa trên

các ràng buộc về chuyển động, vị trí của đối tượng. Hạn chế của phương pháp là

cần có một cơ chế bên ngoài để phát hiện đối tượng trong mỗi frame.

Giải thuật tiêu biểu là Kalman Filter, Particle Filter, Multi Hypothesis Tracking [3]

- Theo vết dựa trên nhân (Kernel tracking)

Mô hình của đối tượng có thể được biểu diễn dưới dạng mẫu (template), hoặc mô

hình mật độ (density based model) ví dụ như histogram. Theo vết được thực hiện

bằng cách tính toán chuyển động của đối tượng qua các frame liên tiếp.

Giải thuật tiêu biểu là Mean-shift, Simple Template Matching, Support Vector

Machine (SVM) [3]

- Theo vết dựa trên hình chiếu (Silhouette tracking)

Sau khi ước lượng vùng đối tượng (Object region) trong mỗi frame, đối tượng được

theo vết bằng cách sử dụng thông tin mã hóa trong vùng đối tượng. Các thông tin

này có thể dưới hình thức là mô hình về hình dạng hoặc mật độ của đối tượng. Khi

có mô hình đối tượng, theo vết được thực hiện bằng phương pháp so khớp hình

dạng (shape matching) hoặc mở rộng đường viền (contour evolutions)

Tiêu biểu là Contour Tracking, Shape Matching. [3]


9

Hình 2.1 Các giải thuật theo vết đối tượng [2,3]

2.2 Các công trình nghiên cứu liên quan

Object Classification and Tracking in Video Surveillance [1]

Qi Zang and Reinhard Klette

Hệ thống theo vết đối tượng được xây dựng cho ứng dụng trong giám sát giao

thông (traffic surveillance)

Ở giai đoạn đầu, sử dụng giải thuật trừ nền để phân tách đối tượng, Mỗi điểm

ảnh nền (background pixel) sẽ được mô hình hóa bằng phân phối mixture of

Gaussian. Giai đoạn hai, gán nhãn cho từng vùng đối tượng (object region) và xác

định các đặc trưng: bouding rectangle (hình chữ nhật nhỏ nhất chứa đối tượng),

color (không gian màu RGB), center (trọng tâm của hình chữ nhật), velocity (số

pixel di chuyển/giây theo cả 2 hướng dọc ngang). Sử dụng SUSAN (bộ phát hiện

góc) để xác định góc của phương tiện trong mỗi bounding box. Sử dụng phương

pháp lai (hybrid method) kết hợp Kalman Filter với kỹ thuật so khớp (matching) để

theo vết đối tượng.

Ưu điểm của giải thuật là giảm được thời gian tính toán khi sử dụng bộ phát

hiện góc trong vùng bounding rectangle. Và sử dụng tỉ số cao/rộng trong thông tin

góc để phân lớp đối tượng là người đi bộ hay phương tiện, nhưng chỉ có hiệu quả

nếu các vùng đối tượng là tách biệt.

Object Tracking

PointTracking

KernelTracking

SilhouetteTracking

Kalman FilterParticle FilterMulti Hypothesis Tracking

Mean-shiftSimple Template MatchingSupport Vector Machine

Contour TrackingShape Matching


10

Adaptive mean–shift for automated multi object tracking [4]

C. Beyan A. Temizel

Đưa ra bộ theo vết đa đối tượng hoàn toàn tự động dựa trên giải thuật mean-

shift. Sử dụng Gaussian để loại nhiễu, bóng và rút trích foreground. Đồng thời

Gaussian để xác định bouding box, dùng như một mặt nạ nhân (kernel mask) để

giảm vùng tìm kiếm và dự báo vị trí mới của đối tượng.

Ưu điểm là phát hiện được khi đối tượng vào hoặc ra khỏi vùng quan sát. Cập

nhật bộ theo vết với thông tin foreground để cải tiến mean-shift, làm cho giải thuật

có hiệu quả cả trong trường hợp đối tượng thay đổi về hình dáng, kích thước. Tuy

nhiên, chỉ áp dụng với trường hợp camera tĩnh (static camera)

Object tracking in an outdoor environment using fusion of features and

camera [5]

Quming Zhou, J.K. Aggarwal

Bài báo đưa ra một hệ thống theo vết và phân lớp đối tượng chuyển động sử

dụng một hoặc nhiều camera trong môi trường ngoài trời (outdoor). Kết hợp các đặc

trưng như vị trí, hình dạng, màu sắc để tăng hiệu quả theo vết đối tượng. Kết hợp

thông tin từ các camera để có được quỹ đạo chuyển động của đối tượng. Đồng thời,

giải quyết bài toán che khuất bằng cách sử dụng bộ lọc Kalman mở rộng (extended

Kalman Filter-EKF). Giải thuật cũng phân lớp đối tượng thành ba nhóm: một người

(single person), nhóm người (people group) và phương tiện (vehicle). Tuy nhiên

EKF không thành công nếu đối tượng bị che khuất ở cả 2 camera.


Chương 2 tổng hợp các phương pháp theo vết đối tượng theo một số nghiên cứu

trước đây, nêu những đặc điểm cũng như ưu, nhược điểm của các phương pháp đó;

trình bày tổng quan về một số nghiên cứu liên quan đến theo vết đối tượng.


11

input

output

Trajectory

CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ

HƯỚNG TIẾP CẬN

Chương ba trình bày quy trình từng bước để theo vết đối tượng, một số giải

thuật thường được áp dụng. Cuối cùng, nêu mô tả cụ thể về giải thuật đề xuất.

3.1 Quá trình phát hiện và theo vết đối tượng

Từ dữ liệu đầu vào là đoạn video, quá trình theo vết đối tượng bao gồm các

bước:

- Tách frame: Tách đoạn video thành các frame ảnh.

- Trừ nền: Xử lý các frame để xác định cảnh nền (background) và đối tượng.

- Tiền xử lý: Khử bóng, nhiễu và phân tách đối tượng khỏi cảnh nền.

- Phát hiện đối tượng: Nhận dạng đối tượng chuyển động, biểu diễn đối tượng

bằng các đặc trưng.

- Theo vết đối tượng: Xác dịnh vị trí của đối tượng tại từng frame.

Hình 3.1 Sơ đồ quá trình theo vết đối tượng

video

Tách Frame (Image Frame)

Trừ nền (Background Subtraction)

Phát hiện(Object Detection)

Theo vết (Tracking)

Tiền xử lý (Post-Processing)


12

3.1.1 Phát hiện đối tượng chuyển động (Moving object detection)

Phát hiện thay đổi (Change Detection) là việc xác định những thay đổi trong

trạng thái của pixel thông qua việc kiểm tra các giá trị đại diện (appearance value)

giữa các tập frame [6]

Một số kỹ thuật để phát hiện thay đổi thường được sử dụng nhất là

- Frame Differencing and Motion History Image

- Background Subtraction

- Motion Segmentation

- Matrix Decomposition

Quá trình phát hiện đối tượng bắt đầu với việc xác định các thành phần trong

frame ảnh. Sau đó, phân tách đối tượng khỏi cảnh nền. Có thể thực hiện bằng cách

sử dụng thông tin từ một frame nhưng để tăng tính chính xác thường sử dụng thông

tin từ chuỗi frame.

Quá trình gồm các bước như sau:

Khởi tạo nền (Background initialization)

Đầu tiên, khởi tạo background. Đây là bước thiết lập các giá trị để xác định

background hay còn gọi là background learning [7]. Sau khi hệ thống đã “học” giá

trị khởi tạo của background, thực hiện mô hình background (sử dụng các giải thuật

như mean filter và median filter [8]).

Trừ nền (Background Subtraction)

Hay còn gọi là bước phát hiện foreground (foreground detection). Đây là bước

tách foreground với background. Sử dụng background model và current image để

xác định foreground và xây dựng foreground pixel map [9].

Gọi là giá trị pixel của current frame và là giá trị pixel của

background. là ngưỡng để quyết định pixel đó có thuộc đối tượng hay không [8]

- Nếu pixel được định nghĩa là foreground object

- Nếu , ,t tX x y B x y T pixel được xác định là background. Cập nhật

1, ,t tX x y B x y tức giá trị pixel của current image tại thời điểm t sẽ

là giá trị pixel của background khi xem xét ở thời điểm t+1

Vì đối tượng di chuyển làm cho khung cảnh nền sẽ có sự thay đổi, vì vậy ta cần liên

tục cập nhật background model để cho việc xác định foreground chính xác hơn.

,tX x y ,tB x y

T , ,t tX x y B x y T


13

Tiền xử lý (Post processing)

Do những ảnh hưởng của môi trường nên foreground pixel map có thể chứa

nhiễu. Mục tiêu của bước này là loại bỏ các foreground pixel mà không tương ứng

với foreground region thực tế, và để loại bỏ nhiễu xung quanh và bên trong object

region, làm nổi bật object region.

Việc khử nhiễu cho foreground pixel map có thể thực hiện bằng bộ lọc thông

thấp (low pass filter) và morphological operations. Bộ lọc thông thấp được sử dụng

để làm mờ (blurring) và giảm nhiễu (noise reduction) như loại bỏ các chi tiết nhỏ

hoặc nối các điểm đứt đoạn [9]. Trong khi Morphological lại có thể biểu diễn và mô

tả các object region bằng phương pháp boundary hoặc skeleton bằng cách sử dụng

các bộ lọc hình thái như erosion (làm mõng) và dilation (cắt tỉa)

Phát hiện đối tượng (Object Detection)

Tới bước này, foreground map là môt ảnh nhị phân. Quét qua ảnh nhị phân để

xác định một nonzero pixel bất kỳ, tìm các nonzero pixel khác liên kết với nó (tức

kế cận với nó, thường là 4-adjacency hoặc 8-adjacency [8]), gán nhãn cho các

nonzero pixel vừa tìm được. Quá trình kết thúc khi tất cả các nonzero pixel được

gán nhãn. Gom nhóm các nonzero pixel có cùng nhãn ta sẽ có được các vùng liên

kết (connected region). Trường hợp lý tưởng, các connected region này chính là các

moving object, nhưng cũng có thể là một vùng mà ánh sáng thay đổi hay bóng

(shadow), nên có thể cần thêm bước Region level post-processing [9] để loại bỏ các

vùng có kích thước nhỏ hơn ngưỡng (giá trị ngưỡng được định nghĩa trước)

3.1.2 Mô hình đối tượng (Object Modeling)

Tracking là so khớp (matching) các connected region giữa các frame liên tiếp

nhau sử dụng các đặc trưng của đối tượng như color, velocity, texture, perimeter

[9]. Đối tượng được tracking bằng cách quản lý vector đặc trưng qua các frame.

Rút trích đặc trưng (Feature Extraction)

Lựa chọn các đặc trưng đóng vai trò quan trọng trong bài toán theo vết. Các

đặc trưng được chọn sao cho nó là duy nhất trong không gian đặc trưng để phân biệt

các moving object với nhau. Một số đặc trưng phổ biến dùng trong tracking được

[6] xác định gồm có:

- Màu sắc (color)

- Gradient


14

- Luồng chuyển động (Optical Flow)

- Kết cấu (Texture)

- Corner Points

Biễu diễn đối tượng (Object Representation)

Lựa chọn đặc trưng cũng chính là việc xác định cách thức biểu diễn đối tượng.

Các mô hình biểu diễn đối tượng được [6] chia thành:

- Point and region

- Silhouette

- Connected Parts

- Graph and Skeletal

- Spatio Temporal

Hình 3.2: Một số cách biễu diễn đối tượng

Từ trái qua: object region, elliptical, silhouette (contour), part-based, skeletal

[2] nêu thêm một vài phương pháp biểu diễn đối tượng

Hình 3.3: Các cách biễu diễn đối tượng theo [2]


15

Từ trái qua: (a) Centroid, (b) multiple points, (c) rectangular patch, (d) elliptical

patch, (e) part-based multiple patches, (f) object skeleton, (g) object contour, (h)

control points on object contour, (i) object silhouette

Mô tả đối tượng (Object Descriptors)

[6] tổng hợp các mô hình mô tả đối tượng bằng các phương pháp như:

- Template

- Histogram, HOG, SIFT

- Region Covariance

- Ensembles and Eigenspaces

- Appearance Models

Hình 3.2: Tổng hợp các các đặc trưng, mô hình biễu diễn và cách mô tả đối tượng

3.1.3 Theo vết đối tượng chuyển động (Moving object tracking)

Một số kỹ thuật tracking phổ biến [6]

- Template Matching

- Density Estimation : Mean –Shift

- Motion Estimation

- Kalman Filtering

- Particle Filtering

- Silhouette Tracking

Có nhiều kỹ thuật tracking khác nhau và mỗi phương pháp sẽ dựa trên những

cơ chế và đặc trưng khác nhau của đối tượng.

Với phương pháp tracking dựa trên điểm như Kalman Filter và Particle Filter,

ta có thể dựa vào hai đặc trưng của đối tượng là Centroid và Bouding box để theo

vết. Sau khi xác định được các connected region, ta tính được bouding box của các

region đó. Centroid của đối tượng chính là center của bouding box. Xác định

centroid của từng đối tượng qua các frame và xây dựng quỹ đạo chuyển động của

object.


16

Tracjector

Moving Object Detection

Hình 3.4: Sơ đồ tổng quát các bước của quy trình theo vết đối tượng

video

Image Frames

Removing Shadow & Noise

Object Tracking

Background Model

Background Model Update

Foreground Detection

> threshold

< threshold

Background Subtraction

Object Modeling

Detection

Output

Input

Labeling Connected Component

Region level

Post-Processing

FeatureExtraction

Object Representation

Post-Processing


17

3.2 Giải thuật đề xuất

Để phát triển một giải thuật theo vết cần có phương pháp biểu diễn đối tượng

phù hợp, lựa chọn đúng các đặc trưng tiêu biểu và thuật toán theo vết tốt [10].

Cụ thể, luận văn đề xuất quy trình theo vết đối tượng theo các bước sau:

1. Video input sẽ được tách thành các frame (ví dụ 25frames/s [5])

2. Phát hiện đối tượng bằng giải thuật Background Subtraction

3. Lọc nhiễu, bóng bằng low-pass filter và morphological filter

4. Lựa chọn đặc trưng dựa trên Centroid

5. Biểu diễn đối tượng bằng rectangular shape

6. Tracking bằng giải thuật Kalman Filter

3.2.1 Object Extraction from background

Giải thuật áp dụng : Background Subtraction

Trước khi thực hiện tracking, cần phải rút trích được moving object khỏi

background. Giải thuật phân tách đối tượng được sử dụng phổ biến nhất là

Background Subtraction. Có thể thực hiện bằng cách xây dựng một biểu diễn của

cảnh gọi là background model, tính toán độ sai lệnh giữa background model và mỗi

frame. Các pixel có độ sai lệch khác 0 sẽ được liên kết tạo thành các foreground

region hay moving object.

[9] tổng hợp và chia Background Subtraction thành 4 dạng:

- Background subtraction with Alpha

- Statistical Methods

- Temporal differencing

- Eigen background subtraction

Mixture of Gaussian Model là phương pháp phổ biến và là một trong những

phương pháp hiệu quả cho Background Subtration [4].

Mỗi pixel sẽ được mô hình bằng một Mixture of Gaussian với K thành phần theo

công thức sau

Trong đó:

tX là giá trị của pixel tại thời điểm t

là training set tại thời gian t với T là khoảng thời gian , ......,T t t TX X X

t , , ,

1

( ) , ,K

i t t i t i t

i

P X X


18

,i t

K là số thành phần (component), thường trong khoảng 3 đến 5 [1]

Trọng số của Gaussian thứ i, là giá trị không âm (non-negative) và có

tổng bằng 1

Giá trị trung bình của Gaussian thứ i ở thời gian t.

,i t Ma trận hiệp phương sai của Gaussian thứ i tai thời gian t,

Với là phương sai cho thành phần Gaussian thứ i

Mỗi giá trị pixel mới tX sẽ được kiển tra với K Gaussian component, nếu tX

khớp (match) với component i thì các tham số của component thứ i sẽ được cập

nhật theo các công thức:

, , 11i t i t tI

2 2, ,

, , 11

Tt i t t i t

i t i tI I

Với , 1 , 1Pr | ,t i t i tI

là hệ số học (learning parameter), xấp xỉ 1/ T

là giá trị trung bình của pixel tại thời điểm t

là pixel tại thời điểm t

Tham số của các component còn lại sẽ không thay đổi, tức

và

Nhưng sẽ được điều chỉnh theo công thức

Nếu tX không khớp với component nào của Gaussian thì component có giá

trị nhỏ nhất trong Gaussian sẽ được thay bằng component có giá trị bằng giá trị

trung bình của nó. Gán component có phương sai nhỏ nhất làm background

Vì moving object có phương sai lớn hơn background pixel nên để biểu diễn

Background ta sắp xếp các Gaussian theo giá trị giảm dần.Khi đó,

background component vẫn ở đầu với phương sai thấp nhất bằng cách áp dụng

ngưỡng T với

Tất cả các pixel tX không khớp với bất kỳ component nào sẽ được ghi nhận là

foreground.

t

tI

,i t , , 11i t i t , , 1t t t t 2 2

, , 1i t i t

, ,/ || ||i t i t

,i t2

, , i t i tI

, i t

, , 11i t i t

,1

,1

argmin

bi t

ib K

i ti

B T


19

Khử nhiễu, bóng (removing shadow and noise)

Việc phát hiện sự thay đổi về độ sáng (brightness) và sắc độ (chromaticity)

trong không gian màu HSV thì chính xác hơn trong không gian RGB, đặc biệt là

với cảnh quay ở môi trường bên ngoài, và không gian màu HSV gần với nhận thức

màu sắc (perception of color) của con người nên ta dùng không gian màu HSV cho

việc loại bỏ nhiễu của các pixel.

Vì chỉ cần loại nhiễu trên foreground pixels nên chỉ foreground pixel được

chuyển đổi (convert) thành bộ ba giá trị hue, saturation, intensity (sắc màu, độ bão

hòa, cường độ). Các shadow region có thể được được phát hiện và loại bỏ bằng

cách sau:

Gọi E là biểu diễn của current pixel (nó được ghi nhận là foreground pixel) tại

thời điểm t

B là biểu diễn background pixel tại thời điểm t

Nếu mỗi foreground pixel thỏa mãn công thức

Và thì chúng sẽ được ghi nhận là shadow và loại khỏi

foreground map. Tham số của shadow pixels sẽ không được cập nhật. Kết thúc

bước này ta sẽ có được một foreground pixel map có độ chính xác cao hơn. Tiếp

theo, gán nhãn các pixel kế cận nhau có giá trị non-zero và liên kết các pixel cùng

nhãn để có được các moving object.

3.2.2 Object Tracking

Trước khi thực hiện tracking ta có thể áp dụng morphological filters để giảm

bớt ảnh hưởng của nhiểu.

Với mỗi object region ta xác định các đặc trưng:

- Bouding rectangle : hình chữ nhật nhỏ nhất chứ object region. ghi nhận lại

giá trị tọa độ tại điểm upper-left và lower-right. Từ đó, có thể tính được kích

thước (độ rộng,chiều cao) của bouding box

- Color: giá trị RGB trurng bình của moving object.

- Center: lấy giá trị trọng tâm (giao của 2 đường chéo) của bouding box làm

centroid cho moving object region (tính gần đúng)

- Velocity: số pixel/giây theo cả chiều dọc và ngang.

Moving object được biểu diễn bằng vector đặc trưng gồm 4 thành phần

[bouding box, color, center, velocity]

| | , | |h h h s s sE B T E B T 1 2/v v v vT E B T


20

Giải thuật đề xuất để tracking: Particle Filter

Particle Filter là một kỹ thuật suy diễn (inference technique) để ước lượng

trạng thái chuyển động tX từ điểm quan sát 1 : tZ , với X là nhãn nhị phân của đối

tượng [12]. Trạng thái ước lượng đó được kí hiệu là 1 : ttp X Z

Giả sử phát sinh được một tập N mẫu 1

Nn

tn

X

từ phân phối hậu nghiệm (posterior

distribution) 1 : ttp X Z , nghĩa là xác xuất nhận được trạng thái ntX là 1 :

nttp X Z ,

thì mật độ xác xuất này có thể được xấp xỉ bằng ước lượng Monte Carlo [11]

1 :

1

1 Nn

t t t tn

p X Z X XN

Trong đó là hàm Dirac Delta tại 0: , 00 , 0

xxx

1x dx

Khi N ước lượng Monte Carlo sẽ hội tụ về mật độ xác xuất thực sự. Tuy

nhiên, việc lấy mẫu trực tiếp từ mật độ hậu nghiệm không hiệu quả do 1 : ttp X Z

thường là đa biến và có thể thay đổi theo thời gian. Do đó để tạo ra tập mẫu “đúng”

cho phân phối 1 : ttp X Z ta sử dụng phương pháp lấy mẫu Importance Sampling

[13]

Nguyên lý của Importance Sampling là lựa chọn một phân phối q dễ lấy mẫu hơn

để phát sinh tập mẫu. Mẫu phát sinh bởi Importance Sampling gọi là fair sampling,

phân phối q gọi là phân phối đề xuất (proposal distribution) [12]. Mỗi mẫu được

gán một trọng số ntw , phản ánh bản chất việc lấy mẫu được thực hiện từ một phân

phối khác với phân phối mục tiêu. Trọng số được chuẩn hóa sao cho 1ntn

w .

Khi đó, ước lượng Monte Carlo được viết lại như sau:

1 :

1

Nn n

t t tt tn

p X Z w X X

Particle Filter xấp xỉ mật độ hậu nghiệm bằng tập N mẫu

1,

Nn n

t tn

X w

[12].

Ý trưởng chính là lan truyền tập mẫu này theo thời gian như sơ đồ sau


21

Dự đoán ntX

Cập nhật

tZ [ ]tZ......

1 1,n nt tX w

,n nt tX w …….

Theo [7] nếu mật độ hậu nghiệm 1 1 : 1t tp X Z tại thời điểm 1t được xấp xỉ

bằng tập mẫu 1 1

1,

Nn n

t tn

X w

thì hai bước hồi quy của Particle Filter là:

- Dự đoán: lấy mẫu từ phân phối đề xuất q

1 ,n nt tt tX q X X Z�

Khác với phương pháp ước lượng Bayesian truyền thống, Particle Filter có thể sử

dụng thông tin quan sát tZ ở bước dự đoán để tăng hiệu quả lấy mẫu.

- Cập nhật: tính trọng số của mẫu

1

1

1

x ,

n n nt t t tn n

t tn nt t t

p Z X p X Xw w

q X X Z

1

nn t

t N nti

ww

w

Trạng thái hiện tại tX của hệ thống được xác định bằng ước lượng Expected A

Posterior (EAP)-lấy kỳ vọng của mật độ hậu nghiệm:

1

N n nt t tn

X w X

Một vấn đề gặp phải khi dùng Particle Filter là hiện tượng suy biến (degeneracy).

Sau một khoảng thời gian, ngoại trừ một mẫu duy nhất trong tập mẫu, các mẫu còn

lại đều có trọng số nhỏ, không đáng kể. Để khắc phục, phương pháp lấy mẫu Monte

Carlo importance sampling được áp dụng tại bước cập nhật [12]. Quá trình bao gồm

3 bước chính:

1. Đầu tiên, lấy N mẫu ntX từ phân phối đề xuất tq X

1 1n nn

t tt t tn

X q X w p X X �

Với 1ntw là trọng số của mẫu thứ n trong frame trước đó.


22

Sử dụng mô hình chuyển đổi Gaussian tuyến tính điển hình (typical linear Gaussian

transition model ) để lấy mẫu từ mẫu quan trọng của frame trước đó.

2. Tiếp theo, trọng số ntw được tính như likelihood

n ntt tw p Y X

Kí hiệu trọng số đã được re-weighting ở bước này là n

tw

Trong đó, mẫu ntX là fair sampling được phát sinh cho phân phối 1 : 1t tp X Z

[13].Từ việc tính lại trọng số ở bước này, mẫu quan sát tY lại trở thành mẫu được

xem xét.

3. Sau đó, chuẩn hóa trọng số ntw :

nn t

t ktk

ww

w hay chính xác hơn

n

n tt k

tk

w w

w

Do ở bước tracking, ta đơn giản hóa mô hình của đối tượng thành một rectangular

bounding box (hình chữ nhật bao quanh đối tượng). Khi đó, trạng thái của đối tượng

chính là vị trí và kích thước của bounding box,

4, , , , t t t t t tX x y w h X �

Trong đó:

: là tọa độ tâm

là chiều rộng và chiều cao của bounding box

Tính chất quan trọng nhất của Particle Filter là khả năng điều khiển (handle) những

mật độ hậu nghiệm đa mô hình phức tạp [13]. Tuy nhiên, sẽ khó khăn trong trường

hợp tX là nhiều chiều (high-dimensional).

Việc lựa chọn phân phối đề xuất q cũng ảnh hưởng đến hiệu quả của giải thuật.

Phương pháp Particle Filter tổng quát được cải tiến thành nhiều phiên bản ứng dụng

cho nhiều trường hợp khác nhau như Sampling Importance Resampling (SIR),

partitioned sampling (PS), Markov Chain Monte Carlo (MCMC), reversible jump

Markov Chain Monte Carlo (RJMCMC) [14]

,t tx y,t tw h


23


Chương 3 luận văn đã nêu quy trình theo vết đối tượng theo từng bước. Giải thích

cụ thể mục tiêu của từng bước và cách thức thực hiện, nêu lên một số phương pháp

được sử dụng. Ngoài ra, chương 3 cũng đề xuất quy trình và và trình bày cơ sở lý

thuyết của các giải thuật cụ thể được sử dụng.

CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC

4.1 Kết quả dự kiến

Sau khi triển khai theo giải thuật đề xuất dự kiến sẽ có thể:

- Vẽ được bounding box chứa moving object và hiển thị được tọa độ trung

tâm. Kích thước bouding box thay đổi theo kích thước của đối tượng.

- Hiển thị tọa độ trung tâm của bouding box. Khi đối tượng di chuyển, tập các

điểm đó là quỹ đạo chuyển động của đối tượng (kí hiệu là T1)

- Đồng thời, giải thuật tracking Particle Filter cũng dự báo vị trí tiếp theo của

đối tượng và hiển thị tọa độ của centroid. Liên kết các tọa độ này sẽ tạo

thành quỹ đạo chuyển động của đối tượng dựa trên ước lượng bằng Particle

Filter (kí hiệu là T2)

- Tổng thời gian thực thi sẽ nhỏ hơn 0,2s (bao gồm thời gian cho các quá trình

từ Object Extraction đến Traking)

4.2 Phương pháp đánh giá kết quả

So sánh để thấy mức độ sai lệch giữa T1 và T2.

So sánh với kết quả của các bài báo

1. Object Classification and Tracking in Video Surveillance

2. Object tracking in an outdoor environment using fusion of features and

cameras

4.3 Những đóng góp của nghiên cứu

- Luận văn có sự tổng hợp và tóm tắt những kiến thức liên quan đến hệ thống

theo vết đối tượng, những khó khăn thách thức còn tồn tại.

- Trong luận văn có trình bày cách thức phân loại các giải thuật theo một vài

nghiên cứu trước đó, giúp đưa ra một một cách nhìn tổng quan và logic để

tiếp cận với bài toán.


24

- Trong quá trình xây dựng giải thuật, đã phân tích cụ thể từng bước của quy

trình, và tại mỗi quy trình có nêu lên các giải thuật có thể sử dụng trước khi

đưa ra giải thuật đề xuất.

- Luận văn có sự so sánh kết quả với các nghiên cứu trước đó để cho thấy mức

độ hiệu quả của giải thuật.


Chương 4 nêu kết quả dự kiến sẽ đạt được và cách thức đánh giá kết quả. Đồng

thời, trình bày những đóng góp của luận văn

DỰ KIẾN KẾ HOẠCH THỰC HIỆN

STT Nội dung Thời gian

1 Chương 1,2 : Tìm đọc thêm các công trình nghiên cứu, các bài báo mới.

2 tuần

2Chương 3:

- Tìm đọc thêm tài liệu- Nêu rõ hơn về đặc điểm các giải thuật đề cập ở 3.1 .- Đánh giá so sánh giải thuật đề xuất so với các giải

thuật khác

1 tuần

2 tuần3 Triển khai giải thuật

Đánh giá kết quả: so sánh với kết quả dự kiến và các nghiên cứu khác

12 tuần hoặc hơn

4 Trình bày luận văn 2 tuần

TÀI LIỆU THAM KHẢO

[1] Object Classification and Tracking in Video Surveillance

[2] Object Tracking: A Survey 2006

[3]Systematic Survey on Object Tracking Methods in Video

[4] Adaptive mean–shift for automated multi object tracking

[5] Object tracking in an outdoor environment using fusion of features and camera

[6] Object Detection and Tracking (Fatih Porikli and Alper Yilmaz)

[7] Adaptive Background Learning for Vehicle Detection and Spatio-Temporal

Tracking

[8] Object Tracking and Detecting Based on Adaptive Background Subtraction

[9] A Survey on Moving Object Detection and Tracking in Video Surveillance

System

[10] Contour Based Object Tracking

[11] VariableResolutionParticleFilter

[12]Key Object Discovery ang Tracking Based on Context-Aware Saliency

[13] Particle filter notes Greg mori

dc_objecttracking4.0 -b.pdf

Documents