cuonluanvan_viet.pdf

LỜI CẢM ƠN

Chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến TS. Trần Hành đã hướng

dẫn nhiệt tình, tận tâm trong suốt quá trình tôi thực hiện nghiên cứu này.

Chúng tôi xin chân thành cảm ơn các bạn đồng nghiệp trong Trung Tâm

Thông Tin Tư Liệu - Trường Đại học Lạc Hồng đã giúp đỡ cho tôi trong suốt

thời gian nghiên cứu tại trường.

Chúng tôi cũng xin chân thành cảm ơn quí Thầy (Cô) trong và ngoài

trường đã tận tâm giúp đỡ tôi trong quá trình nghiên cứu.

MỤC LỤC

LỜI CẢM ƠN ........................................................................................................ i

MỤC LỤC............................................................................................................. ii

DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................... iv

DANH MỤC HÌNH .............................................................................................. v

DANH MỤC CÁC BẢNG................................................................................... vi

DANH MỤC CÁC LƯỢC ĐỒ ...........................................................................vii

MỞ ĐẦU............................................................................................................... 1

Chương 1 ............................................................................................................... 4

KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI TƯỢNG..................... 4

1.1. Khái quát về xử lý Video ............................................................................... 4

1.1.1. Sơ lược về Video ..................................................................................... 4

1.1.2. Các dạng Video........................................................................................ 5

1.1.2.1 Video tương tự.................................................................................... 5

1.1.2.2 Video số.............................................................................................. 5

1.1.3. Các chuẩn Video...................................................................................... 6

1.2. Phát hiện và giám sát đối tượng:.................................................................. 13

1.2.1. Phát hiện đối tượng chuyển động trong Video...................................... 13

1.2.1.1. Phép trừ nền..................................................................................... 14

1.2.1.2. Các phương pháp tĩnh ..................................................................... 15

1.2.1.3. Sự khác biệt theo thời gian.............................................................. 16

1.2.1.4. Optical Flow.................................................................................... 17

1.2.2. Phân loại đối tượng trong Video............................................................ 21

1.2.2.1. Phân loại dựa theo hình dạng .......................................................... 21

1.2.2.2. Phân loại dựa theo chuyển động .................................................... 22

1.2.3. Phát hiện ánh sáng ................................................................................. 23

1.2.4. Đánh dấu đối tượng ............................................................................... 23

Chương 2 ............................................................................................................. 25

PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG

VIDEO................................................................................................................. 25

2.1. Phát hiện đối tượng ...................................................................................... 25

2.1.1. Phát hiện nổi trội.................................................................................... 27

2.1.1.1 Mô hình trừ nền có khả năng thích ứng ........................................... 28

2.1.1.2. Mô hình hỗn hợp Gaussian tương thích.......................................... 31

2.1.1.3. Sự khác biệt theo thời gian.............................................................. 34

2.1.2. Bước hậu xử lý điểm ảnh....................................................................... 35

2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột............................ 36

2.1.3. Phát hiện các vùng liên tục .................................................................... 42

2.1.4. Bước hậu xử lý vùng.............................................................................. 43

2.1.5. Trích rút các đặc trưng của đối tượng.................................................... 43

2.2. Giám sát đối tượng chuyển động ................................................................. 44

2.2.1. Tham chiếu tương tự với các đối tượng cơ bản..................................... 46

2.2.2. Điều khiển sự chồng chéo của các đối tượng ........................................ 51

2.2.2.1 Phát hiện các đối tượng bị che khuất ............................................... 52

2.2.2.2. Phát hiện các đối tượng tách ra ....................................................... 52

2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng ............................................. 53

2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ ................... 55

Chương 3 ............................................................................................................. 58

ỨNG DỤNG........................................................................................................ 58

3.1. Giám sát tự động dưới sự trợ giúp của Camera ........................................... 58

3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng .......................... 59

3.2.1. Giao diện của chương trình: .................................................................. 63

3.2.2. Các chức năng của chương trình: .......................................................... 63

KẾT LUẬN ......................................................................................................... 67

TÀI LIỆU THAM KHẢO................................................................................... 69

DANH MỤC CÁC TỪ VIẾT TẮT

Cụm từ viết tắt Mô tả viết tắt

BG Background

FG Foreground

MPEG Moving Pictures Expert Group

RGB Red Green Blue

H Human

V Vehicle

HG Human Group

DANH MỤC HÌNH

Hình 1.1: Ví dụ về sự khác biệt theo thời gian ................................................... 16

Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo.

Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng

phép trừ nền......................................................................................................... 31

Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm ............................ 33

Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó : ........ 33

Hình 2.3 : Ví dụ về bước khử nhiễu pixel........................................................... 36

Hình 2.4 : Các vector RGB của pixel ảnh hiện thời xI và pixel nền tương ứng xB ..... 39

Hình 2.5 : Ví dụ về xóa bóng. ............................................................................. 39

Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột.............................................. 40

Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự. ............................................. 42

Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. ..................................... 42

Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng ................................................. 48

Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất ..................... 51

Hình 2.11: Nhận dạng đối tượng sau khi che khuất............................................ 54

Hình 2.12: Phân biệt các đối tượng dời đi và biến mất....................................... 57

Hình 3.1: Sơ đồ mô tả các tiến trình xử lý của hệ thống..................................... 59

Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng............................................. 61

Hình 3.3: Lưu đồ thuật toán phát hiện sự chuyển động...................................... 62

Hình 3.4: Giao diện chương trình demo ............................................................. 63

Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động............................... 63

Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết .................. 64

Hình 3.7: Chức năng theo vết đối tượng được lựa chọn để theo vết(tiếp theo).. 64

Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết ................ 65

Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng cần

theo vết ................................................................................................................ 65

Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse”... 66

DANH MỤC CÁC BẢNG

Bảng1.1. Các tiêu chuẩn của Video số.................................................................. 5

Bảng 1.2. Một số ràng buộc của MPEG-1 ............................................................ 8

Bảng 1.3. Mô tả kiểu CIF và QCIF..................................................................... 11

DANH MỤC CÁC LƯỢC ĐỒ

Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video............................. 14

Lược đồ 2.1: Lược đồ khối hệ thống.................................................................. 25

Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng........................................... 46

1

MỞ ĐẦU

Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh

chóng của các công nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh

vi thì ngành công nghệ phần mềm cũng không ngừng mở rộng để phù hợp với

các yêu cầu của thực tế. Trong đó phải kể đến sự phát triển của các thiết bị thu

nhận hình ảnh từ thế giới thực, chẳng hạn như các hệ thống giám sát bằng

camera, song hành với nó là các vấn đề liên quan đến việc giám sát. Thách

thức chính cho công nghệ phần mềm trong lĩnh vực này chính là việc xử lý

các hình ảnh thu nhận được từ các hệ thống giám sát đó.

Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt

bởi những ứng dụng thiết thực của nó cho đời sống xã hội. Chẳng hạn như các

hệ thống giám sát các hành vi khả nghi của tội phạm, khủng bố ở các địa điểm

nhạy cảm của các chính phủ. Hệ thống giám sát trong các viện bảo tàng, lưu

trữ để chống trộm cắp các di vật đang được trưng bày. Hệ thống giám sát các

hiện tượng bất bình thường, vi phạm pháp luật, tai nạn ở các điểm giao thông.

Hệ thống giám sát phòng chống hỏa hoạn. Các hệ thống giám sát trong các

siêu thị, cửa hàng, công ty để chống trộm cắp,…

Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải

pháp nhằm xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người

phát hiện chính xác và kịp thời các hiện tượng bất thường để có biện pháp xử

lý nhanh chóng nhằm tránh các thiệt hại đáng tiếc cho xã hội.

Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới

dạng Video. Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn

đề liên quan đến việc xử lý Video.

2

Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý Video

và cũng đã có nhiều ứng dụng đáng kể trong lĩnh vực này. Tuy nhiên, so với

yêu cầu thực tế thì như thế vẫn là chưa đủ.

Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ. Thực tế cho

thấy rằng, khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ

càng cao. Như vậy, xử lý Video là một mảnh đất màu mỡ cho các trung tâm

nghiên cứu, các công ty đầu tư vào. Nhất là trong giai đoạn hệ thống nhúng

đang phát triển và mở ra một kỷ nguyên với cho ngành công nghệ phần mềm

như hiện nay.

Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát

triển tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó

cũng là một hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết

bị giám sát tự động. Việc phát hiện ra các đối tượng chuyển động trong Video

nhờ các kỹ thuật xử lý ảnh, trên cơ sở đó đoán nhận một số hành vi của đối

tượng là một việc làm có ý nghĩa khoa học và thực tiễn, nhất là trong hoàn

cảnh Việt Nam chưa có nhiều những nghiên cứu và ứng dụng theo hướng này.

Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để

xử lý Video là vô cùng thiết thực. Được sự hướng dẫn của TS. Trần Hành tôi

đã tiến hành nghiên cứu đề tài “Nghiên cứu một số kỹ thuật phát hiện, bám

sát đối tượng và ứng dụng”

Trong khuôn khổ của nghiên cứu này, mục tiêu của tôi là tìm hiểu các

bước phát hiện, đánh dấu, phân loại các đối tượng chuyển động trong Video

và so sánh mẫu để đưa ra kết luận tương ứng. Sau khi nghiên cứu kỹ các

phương pháp đã được đưa ra, tôi tiến hành đánh giá ưu và nhược điểm của

mỗi phương pháp và mạnh dạn đưa ra một số biện pháp khắc phục nhằm làm

cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực.

3

Các vấn đề cần giải quyết trong phạm vi nghiên cứu này bao gồm:

Nghiên cứu tổng quan về Video và phát hiện đối tượng chuyển động.

Nghiên cứu và đề xuất một hướng khắc phục các nhược điểm trong việc

phát hiện, đánh dấu, phân loại các đối tượng chuyển động.

Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển

động dựa theo các phương pháp đã nêu ở trên.

4

Chương 1

KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI

TƯỢNG

1.1. Khái quát về xử lý Video

1.1.1. Sơ lược về Video

Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ

thông tin mang lại. Trong đó, đa phương tiện là một khía cạnh quan trọng với

nhiều ứng dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn

minh hơn. Nhưng với sự phát triển không ngừng như hiện nay của công nghệ

thông tin, như thế vẫn là chưa đủ. Vẫn cần nhiều hơn nữa các nghiên cứu liên

quan đến khía cạnh này, trong đó phải kể đến một lĩnh vực rất quan trọng của

đa phương tiện, đó là xử lý Video.

Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai,

thực chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển

động. Việc dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất

hiện gần 2 thế kỉ nay. Năm 1834 nhà toán học William George Horner đã phát

minh ra cách mô tả này. Sau đó, hàng loạt các nghiên cứu khác được triển

khai và đã có những ứng dụng đáng kể. Năm 1887, khi Hannubal Good phát

minh ra phim ảnh thì vấn đề ảnh chuyển động được quan tâm đặc biệt vì

những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống

camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên

giây) được phát triển bởi Louis Lumiére..

Sự chuẩn hóa của Video tương tự trong những năm đầu của thập niên

1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh

chuyển động xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng

5

rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ như phát hiện

chuyển động tiếp tục được phát triển.

Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC

(International Organization for Standard – International Electrotechnical

Commission) đã đưa ra chuẩn MJPEG cho Video kĩ thuật số, tổ chức chuẩn

ITU-T (International Telecommunication Union) đã đưa ra chuẩn H.261 và

một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học giá rẻ

đã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phương tiện.

1.1.2. Các dạng Video

1.1.2.1 Video tương tự

NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung

hình, 30 khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi

trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm

bắt đầu mỗi trường.

PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25

khung hình trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẻ,

mỗi trường bao gồm 312.5 dòng.

1.1.2.2 Video số

Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative

Committee for International Radio)

Bảng1.1. Các tiêu chuẩn của Video số

CCIR

601525/60

NTSC

CCIR

601625/50

PAL/SECAM

CIF QCIF

6

Độ phân giải

độ chói 720x480 360x576 352x288 176x144

Độ phân giải

màu sắc 360x480 360x576 176x144 88x72

Lấy mẫu

màu 4:2:2 4:2:2 4:2:0 4:2:0

Số trường /s 60 50 30,15,10,7.5 30,15,10,7.5

Cách quét Cách dòng Cách dòng Liên tục Liên tục

1.1.3. Các chuẩn Video

Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for

Standard-International Electrotechnical Commission) đưa ra bao gồm:

Chuẩn MJPEG:

MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của Video,

trong đó mỗi frame của Video hoặc phạm vi được kết hợp lại của một dãy

Video số được nén lại một cách độc lập như là một ảnh JPEG

MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép

toán này chuyển đổi mỗi frame của Video nguồn từ miền thời gian xác định

vào miền tần số. Một mô hình tri giác dựa theo một cách không chặt chẽ vào

hệ thống trực quan của con người để loại bỏ thông tin có tần số cao, ví dụ như

sự chuyển đổi một cách chính xác theo cường độ và màu sắc. Trong miền

chuyển đổi, việc xử lý rút gọn các thông tin được gọi là lượng tử. Trong đó,

lượng tử là một phương pháp làm giảm được một nhóm tỷ lệ lớn (với sự xẩy

ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn, và miền chuyển đổi

này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số cao, nó góp

7

phần làm giảm các ảnh trên hơn là các hệ số khác, là những đặc tính có giá trị

nhỏ với hệ số nén cao. Các hệ số lượng tử này ngay sau đó được xếp dãy và

đóng gói vào đầu ra của các tuyến bit. Gần như việc thi hành của tất cả các

phần mềm của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén

(như là các tham biến tùy ý khác), cho phép người sử dụng để trao đổi ngoại

tuyến đối với các tệp có kích thước nhỏ hơn. Trong các ứng dụng nhúng

(miniDV, nó được sự dụng tương tự như sự pha trộn nén DCT), các tham biến

này được lựa chọn trước và thiết lập cho ứng dụng.

Chuẩn Video MPEG-1

MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ

dạng nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các

tỉ lệ nén tách biệt là 26:1 và 6:1) trên nhiều môi trường lưu trữ số khác nhau

như VCD , DAT, Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số

với ứng dụng chính là các hệ thống đa phương tiện trực tuyến

Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:

1. Các hệ thống (lưu trữ và đồng bộ hóa Video, audio và các dữ liệu

khác cùng nhau)

2. Video (nén Video)

3. Audio (nén audio)

4. Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện

chuẩn)

5. Các phần mềm cơ sở (chẳng hạn như các phần mềm mã hóa và

giải mã)

Cụ thể chuẩn MPEG-1 cho Video như sau:

Không gian màu của MPEG-1:

8

Trước khi mã hóa Video thành MPEG-1, không gian màu được chuyển

đổi thành Y’CbCr (Y’=Luma, Cb = Thành phần màu Blue, Cr = thành phần

màu Red). Luma bao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau

theo thành phần (màu, màu sắc, giai đoạn) và được phân biệt giữa các thành

phần Red và Blue.

Các đặc tính của MPEG-1:

• Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động,

dự đoán bù chuyển động, dùng thuật toán mã hóa rời rạc cosine

DCT.

• Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ

mã hóa linh hoạt.

• Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị,

tốc độ khác nhau.

• Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập (khung

I).

• Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung

được chọn.

• Trễ mã hóa và giải mã hợp lí (1s), gây ấn tượng tốt cho truy cập

Video đơn công.

MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu

(Y, Cr, Cb) đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard

Input Format) MPEG kênh chí là 352 pixel x 240 dòng và 30 khung hình/s.

Sau đây là một số ràng buộc đối với MPEG-1:

Bảng 1.2. Một số ràng buộc của MPEG-1

9

Số pixel lớn nhất trên một dòng 720

Số dòng lớn nhất trên một ảnh 576

Số ảnh trong một giây 30

Số MB trên một ảnh 396

Số MB trên một giây 9900

Tốc độ bit tối đa 1.86 Mbps

Kích thước bộ đệm giải nén tối đa 376.832 bits


MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi

rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps).

Các đặc tính chính:

MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vô

tuyến kĩ thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu

tuyến, vô tuyến. Nó cũng định dạng cho phim ảnh và một số chương trình

khác được lưu trên DVD hoặc một số đĩa từ tương tự. MPEG-2 là một chuẩn

quốc tế và còn có tên gọi khác là ISO/IEC 13818.

Chuẩn MPEG-2 cho Video tương tự như chuẩn MPEG-1.

Chuẩn Video MPEG-4.

MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau

đó đã nâng tốc độ lên đáng kể.

- Video: 5kbps đến 10 Mbps.

- Audio: 2kbps đến 64 Kbps.

10

Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác

nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch

vụ như: tivi số, đồ họa trình diễn, World Wide Web, Videophone và các mở

rộng của chúng.

MPEG-4 còn được gọi là chuẩn ISO/IEC 14496


Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001

MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông

tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là

một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.

MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và

nó đang được phát triển.

MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả

nội dung của đa phương tiện. Cả người dùng và hệ thống tự động xử lý hệ âm

thanh thực đều thuộc phạm vi của MPEG-7.

Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication

Union) cũng đưa ra một số chuẩn cho Video như sau:

Chuẩn H.120:

H.120 là chuẩn đầu tiên cho việc mã hóa Video kĩ thuật số, được đưa ra

vào những năm 1984.

H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL.

Chuẩn Video H.261

H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone

qua ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các

chuẩn nén sau này như MPEG 1, 2.

11

H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format)

với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF

(Quadrature). Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3

Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s.

Tín hiệu Video được phân thành các lớp, mỗi lớp đều có các header để

định nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh

được phân thành các nhóm khối GOB (Group of Block), các GOB bao gồm

các MB (MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín

hiệu Y và hai khối 8x8 của tín hiệu sắc.

Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi

MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối

Bảng 1.3. Mô tả kiểu CIF và QCIF

Kiểu Số GOB/khung Số MB/GOB Tổng MB/khung

CIF 12 33 396

QCIF 3 33 99

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các

GOB. Mỗi header chứa dữ liệu là dạng ảnh và số khung. Cấu trúc của một

MB như sau:

MBA MTYPE MQUANT MVD CBP Block

Data

MBA: Địa chỉ, MTYPE: Dạng Intra, Inter

MQUANT: Hệ số lượng tử, MVD: Vector chuyển động

CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu

12

IntraFrame: Trong khung, khung I cho khả năng truy cập ngẫu nhiên,

kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT từng MB.

InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có

thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các

tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc

bù chuyển động.

Chuẩn Video H.263

H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền

trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như

H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong

P Frame, tốc độ tối thiểu.

Ưu điểm:

• Chính xác sai biệt dự đoán với ½ điểm ảnh

• Không hạn chế vector chuyển động

• Mã hóa số học theo cú pháp

• Dự đoán thuận lợi với các khung P,…

13

Chuẩn Video H.263:

H.263 là một chuẩn Video codec được thiết kế một cách sáng tạo như

định dạng nén tốc độ bit thấp cho các cuộc hội nghị thông qua Video. Nó là

một thành viên trong nhóm H.26x của các chuẩn mã hóa Video của ITU-T,

được công nhận năm 1996.

H.263 là một yêu cầu bắt buộc của Video codec trong công nghệ ETSI

3GPP cho hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch

vụ gửi nhận thông điệp đa phương tiện (MMS),…

Chuẩn Video H.264:

H.264 là một chuẩn để nén Video, được hoàn thành vào tháng 5 năm

2003. Nó tương tự như chuẩn ISO/IEC 14496 dành cho Video.

1.2. Phát hiện và giám sát đối tượng:

1.2.1. Phát hiện đối tượng chuyển động trong Video

Mỗi ứng dụng được thừa hưởng từ việc xử lý Video thông minh những

thứ nó cần để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một

số điểm chung sau: các đối tượng chuyển động. Như vậy, việc phát hiện các

đối tượng chuyển động là bước đầu tiên của bất kỳ hệ thống xử lý Video nào.

Khi tìm kiếm thấy các đối tượng chuyển động mới bắt đầu chuyển sang bước

xử lý khác. Thực tế thì các Video thu được từ camera có rất nhiều nhiễu,

chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của thời tiết, lá

rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử lý

một cách chính xác. Các công nghệ thường xuyên được sử dụng để phát hiện

đối tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt về

thời gian và optical flow.

14

Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video

1.2.1.1. Phép trừ nền

Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong

các cảnh tĩnh [13]. Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ

điểm ảnh cho điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo

bởi trung bình các ảnh nền trong một khoảng thời gian của một chu kỳ khởi

tạo. Những ảnh mà ở đó có sự khác biệt sau khi thực hiện trừ nền ở trên bước

đầu được phân loại bằng sự nổi trội. Sau khi tạo một bản đồ các điểm nổi trội,

một số phép toán hậu xử lý như: phép co, dãn, đóng khung được thực hiện để

đơn giản hóa các tác động của nhiễu và làm tăng vùng phát hiện. Nền cơ sở

được cập nhật với các ảnh mới theo thời gian để thích ứng với sự thay đổi

của các cảnh động.

Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ

nền trong phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.

Heikkila và Silven [7] sử dụng một cách đơn giản phép phối hợp này, với

mỗi điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời It sẽ

được đánh dấu là điểm nổi bật nếu

|It(x,y) – Bt(x,y)|> τ (1.1)

Phát hiện đối tượng

Phân loại đối tượng Đánh dấu đối tượng

Thừa nhận hành vi

Mô tả ngữ nghĩa

15

được thỏa mãn, trong đó, τ là ngưỡng xác định trước. Ảnh nền BT được

cập nhật bởi việc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :

Bt+1=αIt + (1- α)Bt (1.2)

Việc tạo ra bản đồ điểm nổi trội được cho phép bởi các hình thái đóng và

kết thúc của các miền kích thước nhỏ.

Mặc dù các công nghệ trừ nền thực hiện tốt việc đưa ra các điểm có liên

quan của các vùng chuyển động trước khi kết thúc, chúng thường chịu ảnh

hưởng của các thay đổi động, chẳng hạn ánh sáng chợt thay đổi đột ngột,…

1.2.1.2. Các phương pháp tĩnh

Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa

trên các phương pháp trừ nền.

Phương pháp W4 [6] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel được

biểu diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường

độ và sự sai khác cường độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan

sát được trong suốt chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các

đối tượng chuyển động. Một điểm trong ảnh hiện thời It được phân loại như là

điểm nổi trội nếu nó thỏa mãn:

|M(x,y)-It(x,y)|>D(x,y) hoặc |N(x,y)-Itx,y)|>D(x,y) (1.3)

Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi

bật đã được phát hiện để xóa bỏ một điểm nhiễu đậm đặc. Trong khi tạo ra

các vùng co để quản lý kích cỡ của chúng, một dãy các phép co và dãn được

thực hiện trên bản đồ điểm nổi bật. Cũng như thế, các vùng có kích thước nhỏ

được loại trừ sau khi áp dụng đánh nhãn các thành phần liên tục để tìm vùng.

Trạng thái tĩnh của các điểm ảnh nền thuộc về các vùng đứng yên của ảnh

hiện thời được cập nhật với các ảnh dữ liệu mới.

16

Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [17] đã

miêu tả một sự tương thích của mô hình pha trộn nền để đánh dấu thời gian

thực. Mọi điểm ảnh thực sự được mô hình hóa bởi sự pha trộn của phương

pháp Gaussians và được cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các

phân bố Gaussian sẽ đánh giá xem một điểm sẽ thuộc về việc xử lý điểm nổi

trội hay là thuộc về xử lý nền.

1.2.1.3. Sự khác biệt theo thời gian

Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động

bằng cách sử dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau

(hai hoặc ba) trong một dãy Video. Phương pháp này có khả năng thích ứng

cao với các cảnh động, tuy nhiên, nó thường mắc một số lỗi trong việc phát

hiện đối tượng chuyển động.

(a) (b)

Hình 1.1: Ví dụ về sự khác biệt theo thời gian

(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự khác biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng bên trái. Các vùng chuyển động được phát hiện đánh dấu bởi

màu đỏ

17

Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về

thời gian bị lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động

của con người. Cũng vậy, phương pháp này lỗi khi phát hiện các đối tượng đã

dừng lại trong cảnh. Các phương pháp bổ sung cần kế thừa để phát hiện các

đối tượng đứng yên giúp cho việc thành công ở những bước xử lý cao hơn.

Lipton [9] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó,

các pixel thỏa mãn các biểu thức sau :

|It(x,y) –It-1(x,y)|>τ (1.4)

Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường

hợp, ba frame khác nhau có thể được sử dụng.

1.2.1.4. Optical Flow

Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có

hướng của các đối tượng chuyển động theo thời gian để phát hiện các vùng

chuyển động trong một ảnh. Chúng có thể phát hiện chuyển động trong các

dãy Video ngay cả các Video thu được từ camera di chuyển.

Optical flow là khái niệm chỉ sự chuyển động tương đối của các điểm trên bề mặt một đối tượng, vật thể nào đó gây ra, dưới góc quan sát của một điểm mốc (mắt, camera…). Sự chuyển động của các vật thể (mà thực tế có thể coi là sự chuyển động của các điểm trên bề mặt của vật thể ấy) trong không gian 3 chiều, khi được chiếu lên một mặt phẳng quan sát 2D được gọi là motion field. Nói chung, mục đích của các phương pháp optical flow estimation là để xác định (xấp xỉ) motion field từ một tập các frame ảnh thay đổi theo thời gian, chúng được sử dụng rộng rãi trong các bài toán object segmentation, motion detection, tracking…

Có nhiều kĩ thuật xác định optical flow khác nhau như correlation, matching, feature-tracking, energy-based… nhưng bài này – dựa trên một chương sách của David Fleet [19] – sẽ tập trung vào các phương pháp dựa trên gradient. Các phương pháp khác cũng đã được Fleet khảo sát trong [2].

18

Ý tưởng quan trọng của phương pháp tính optical flow dựa trên gradient là giả định sau:

Bề ngoài của đối tượng không có nhiều thay đổi (về cường độ sáng – intensity) khi xét từ frame thứ n sang frame n+1.

Nghĩa là )1,(),( ++= tuxItxI rrr (1).

Trong đó ),( txI rlà hàm trả về cường độ sáng của điểm ảnh xr tại thời điểm t

(frame thứ t). Tyxx ),(=r

là tọa độ của điểm ảnh trên bề mặt (2D),

),( 21 uuu =r

là vector vận tốc, thể hiện sự thay đổi vị trí của điểm ảnh từ frame thứ t sang frame t+1. Mặc dù có vẻ không thực tế, nhưng nhiều công trình cho thấy giả sử (1) làm việc khá tốt trong thực tế.

Sử dụng khai triển Taylor, ta xấp xỉ:

),(),(),()1,( txItxIutxItuxI trrrrrr

+∇⋅+≈++ (2).

với ),( yx III =∇ , và ),( txItr

là đạo hàm tức thời của I tại thời điểm t.

Bỏ qua các phần tử có bậc đạo hàm cao hơn trong (2), so sánh (1) và (2),

đồng thời xấp xỉ ),( txItr

bằng ),()1,(),( txItxItxItrrr

−+≡δ , ta nhận được phương trình sau, gọi là phương trình ràng buộc gradient (gradient constraint equation, còn gọi là phương trình optical flow)

0),(),( =+⋅∇ txIutxI ttrrr

(3).

Phương trình (3) còn có thể đạt được bằng cách xuất phát ngay từ giả thiết

ban đầu của chúng ta là giá trị độ sáng của điểm ảnh xr không thay đổi từ frame t sang t+1, như vậy:

0)),(( =+⋅∇=++= tt IuIdtdt

tI

dtdy

yI

dtdx

xIttxI

dtd rr

δδ

δδ

δδ

19

Phương trình (3) là phương trình cơ bản của optical flow, trong đó

),( 21 uuu =r

chính là flow cần tìm. Tuy nhiên phương trình này có dạng

021 =+⋅+⋅ CuBuA với 2 ẩn là u1và u2 nên không giải được. (Ta có

nhận xét rằng phương trình (3), với ẩn ),( 21 uuu =r

, là phương trình đường

thẳng trong 2D với vector pháp tuyến là I∇ )

Mọi phương pháp ước lượng optical flow đều xoay quanh việc cố gắng tìm

thêm một phương trình nữa để tính ur

.

Để tìm thêm một ràng buộc nữa cho ur

, ta có thể dùng đến các điểm ảnh lân cận với điểm ảnh đang xét, với giả sử là các điểm ảnh lân cận này cũng nằm trên vật thể và chuyển động với cùng vận tốc của điểm ảnh đang xét. Trong thực tế, các điểm ảnh lân cận có thể không chuyển động cùng vận tốc với điểm ảnh đang xét, do đó ta tìm vector vận tốc mà làm cực tiểu bình phương lỗi [11]:

2)],(),()[()( txItxIuxguE txrrrrr

r +∇⋅Σ= (4)

Phương pháp này gọi là Least-squares (LS) estimation, trong đó )(xg rxác

định “độ rộng” mà estimator này bao phủ. Thông thường người ta chọn hàm

Gaussian. Vận tốc cần tìm là giá trị ur

làm cực tiểu )(uE r.

Người ta chứng minh được )(uE rđạt cực tiểu tại điểm đạo hàm riêng của nó

bằng zero, nghĩa là:

,0])[(),(

22

11

21 =++Σ= yxyxx IIIIuIuxgu

uuE rrr

δ

0])[(),(1

22

2

21 =++Σ= yxyxx IIIIuIuxgu

uuE rrr

δ

20

Hai phương trình này có thể viết ở dạng ma trận:

buMrr

=⋅ (5)

với:

)(2

2

∑∑

∑∑∑∑ −=⋅

⎥⎥⎦

⎤

⎢⎢⎣

⎡=

ty

tx

yyx

yxx

IgIIgI

bgIIgI

IgIgIM

r

Nghiệm của (5) là

bMur

1ˆ −= br

Một số lưu ý với LS estimator

1. Thông thường ta phải tính M và br

tại mỗi điểm xr trên ảnh, nghĩa là

tính bxuxMrrrr

=)()( . Do đó để tăng tốc độ, ta có thể tính trước các

đạo hàm của ảnh ),,,,( 222ttyyxx IIIIII , sau đó convolution các ảnh

đạo hàm này với kernel hàm Gaussian.

2. Khi tính các đạo hàm của I, nếu chỉ tính đơn giản theo kiểu

),1(),(),( yxIyxIyxI x +−= thì có thể không xấp xỉ được tốt giá trị của đạo hàm. Ta có thể nghĩ đến cách dùng một smooth filter nào đó trước khi tính đạo hàm để làm giảm các giá trị peak có trong ảnh.

3. Trong (5), nếu M không là ma trận khả nghịch thì sẽ không giải được. Nếu như kernel gaussian quá nhỏ thì nguy cơ M khộng khả nghịch sẽ cao, tuy nhiên điều quan trọng không phải là kích thước kernel, mà là ở tính đa diện của vật thể trên ảnh. Ngay cả khi hàm Gaussian có kích thước lớn, nếu dữ liệu trên ảnh đa phần biến thiên theo một chiều nhất định thì M vẫn có thể không khả nghịch.

21

1.2.2. Phân loại đối tượng trong Video

Vùng chuyển động được phát hiện trong Video có thể tương ứng với các

đối tượng khác nhau trong thế giới thực như người, nhóm người, xe cộ, sự

hỗn loạn,… Việc thừa nhận kiểu của đối tượng là rất quan trọng để thừa nhận

kiểu của đối tượng được phát hiện để đánh dấu nó một cách chính xác và

phân tích các hoạt động một cách đúng đắn. Hiện nay, có hai hướng tiếp cận

trong việc phân loại các đối tượng, đó là các phương pháp shape-base và

motion - base [20] (dựa theo hình dạng và dựa theo chuyển động). Phương

pháp Shape – base thường dùng cho các đối tượng trong không gian hai chiều

2D còn phương pháp motion – base dùng để lần theo các dấu vết đặc trưng

theo thời gian của các đối tượng cho giải pháp phân loại.

1.2.2.1. Phân loại dựa theo hình dạng

Các đặc trưng chung được sử dụng trong phân chia các đối tượng theo

hình dạng là tạo các hình chữ nhật bao quanh, tạo các vùng, hình chiếu và độ

nghiêng của các vùng chứa đối tượng được phát hiện.

Hướng tiếp cận này sử dụng độ dài các đường nét của hình chiếu và vùng

thông tin để phân loại các đối tượng đã được phát hiện và đưa nó vào thành 3

nhóm: người, xe cộ và các đối tượng khác [9]. Phương pháp này phụ thuộc

vào các giả định, chẳng hạn như, nếu là con người thì sẽ nhỏ hơn xe cộ và có

bóng phức tạp. Mức độ rải rác (dispersedness) được dùng như là một ma trận

phân loại và nó được định nghĩa trong các giới hạn của các vùng của đối

tượng và độ dài đường viền (chu vi) như sau:

Mức độ rải rác = vùng

vichu 2

(1.5)

Việc phân loại được thực hiện ở mỗi frame và kết quả lưu lại thường

được tận dụng để đảm bảo việc phân loại theo thời gian.

22

Phương pháp phân loại này phát triển bởi Collins [4] sử dụng cách nhìn

dựa theo các đặc trưng của thị giác để huấn luyện một mạng nơ ron các đối

tượng phân loại thừa nhận các lớp: con người, nhóm người, xe cộ và sự hỗn

loạn. Đầu vào của mạng nơ ron là mức độ rải rác, các miền, tỉ lệ tương quan

của các vùng đối tượng và độ phóng đại của camera. Cũng như phương pháp

trước, việc phân loại được thực hiện trên mỗi frame và các kết quả được đưa

vào biểu đồ để duy trì sự phân loại theo thời gian.

Saptharishi đề xuất một sự phối hợp phân loại sử dụng chiều dài của việc

huấn luyện của mạng nơ ron với việc “học” khác nhau để thừa nhận hai lớp:

Xe cộ và con người [15]. Papageorgion đưa ra một phương pháp sử dụng sự

phân loại của máy hỗ trợ véc tơ huấn luyện nhờ các đặc trưng biến đổi sóng

nhỏ của đối tượng trong các ảnh của Video từ một cơ sở dữ liệu mẫu đơn giản

[14]. Phương pháp này được sử dụng để thừa nhận các vùng chuyển động

tương tự như con người.

Một phương pháp khác được đưa ra bởi Brodsky [5] sử dụng phép phân

loại Radial Basis Function (RBF), phương pháp này như sau: có một kiến trúc

tương tự như 3 tầng mạng nhân giống lại. Đầu vào của phương pháp này là

gradient ảnh của các vùng đối tượng đã được phát hiện.

1.2.2.2. Phân loại dựa theo chuyển động

Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng

chuyển động theo thời gian của các đối tượng để thừa nhận các lớp của chúng

[3], [21], [8]. Một cách tổng quát, chúng được dùng để phân biệt các đối

tượng cứng (như xe cộ) và không cứng (như người). Phương pháp này dựa

trên cơ sở tính chất đặc biệt theo thời gian của các đối tượng chuyển động.

Với đối tượng được đưa ra ở chu kỳ chuyển động, đặc tính của nó đo được

23

cũng như hiển thị một chu kỳ chuyển động. Phương pháp này khai thác đầu

mối này để phân loại các đối tượng chuyển động sử dụng chu kỳ.

Phân tích optical flow cũng là hữu ích để phân biệt các đối tượng “cứng”

và đối tượng “mềm”. A.J. Lipton trình bày một phương pháp được sử dụng

phân tích optical flow cục bộ của các vùng đối tượng đã được phát hiện [8].

Nó được mong đợi cho các đối tượng mềm như là con người và sẽ đưa ra giá

trị flow trung bình, còn các đối tượng cứng như là xe cộ sẽ được đưa ra giá trị

flow nhỏ. Cũng vậy, phần còn lại trong chuyển động phát sinh của con người

sẽ có chu kỳ. Bằng cách sử dụng gợi ý này, chuyển động của con người và cả

con người có thể được phân biệt với các đối tượng khác như là xe cộ.

1.2.3. Phát hiện ánh sáng

Hầu hết các phương pháp đã trình bày đều dựa trên màu sắc và các điểm

đặc trưng chuyển động của ánh sáng.

Liu và Ahuja [10] đưa ra một phương pháp định nghĩa về các mô hình

quang phổ, không gian và thời gian của các điểm ánh sáng để phát hiện ra sự

có mặt của nó trong Video. Mô hình quang phổ được biểu diễn trong giới hạn

độ đậm đặc màu của các điểm sáng. Mô hình không gian mô tả cấu trúc

không gian của các vùng ánh sáng và mô hình thời gian nắm bắt sự thay đổi

của các cấu trúc theo thời gian

1.2.4. Đánh dấu đối tượng

Đánh dấu là vấn đề có ý nghĩa và khó nên được các nhà nghiên cứu về

máy tính toán rất quan tâm. Mục đích của đánh dấu là để thiết lập sự phù hợp

của các đối tượng và các phần của đối tượng giữa các frame liên tiếp trong

Video. Nó là một công việc có ý nghĩa trong hầu hết các ứng dụng giám sát

từ việc nó cung cấp dữ liệu gắn kết theo thời gian về các đối tượng chuyển

24

động để dùng cho cả việc làm tăng khả năng của các bước xử lý thấp như

phân đoạn chuyển động và khả năng mở rộng dữ liệu ở mức cao hơn như

phân tích hoạt động và thừa nhận cách hành động. Đánh dấu là một công việc

khó khăn để ứng dụng trong các vị trí chồng chéo do các đối tượng phân đoạn

không đúng. Các vấn đề chung của việc phân đoạn không đúng là các bóng

dài, các phần riêng lẻ và tình trạng bị chồng chéo của các đối tượng với mỗi

đối tượng khác và với phần tử đứng yên trong cảnh đó. Như vậy, việc đối phó

với bóng ở bước phát hiện chuyển động và việc bắt được các phần bị che

khuất ở cả bước phân đoạn và bước đánh dấu là rất quan trọng cho sự đánh

dấu đúng đắn.

Đánh dấu trong Video có thể được phân biệt theo sự cần thiết của các

ứng dụng sử dụng nó hoặc theo các phương pháp sử dụng giải pháp của nó.

25

Chương 2

PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN

ĐỘNG TRONG VIDEO

2.1. Phát hiện đối tượng

Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động

trong Video với thời gian thực được mô tả như sau:

Lược đồ 2.1: Lược đồ khối hệ thống

26

Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng

yên từ các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các

đối tượng di chuyển và biến mất; phân loại các đối tượng đã được phát hiện

vào trong các nhóm khác nhau, như người, nhóm người, xe cộ,…; đánh dấu

các đối tượng và tạo ra thông tin về đường đi ngay cả các trường hợp bị che

khuất và phát hiện ánh sáng trong hình ảnh của Video. Trong phần này và

phần sau, sẽ mô tả các mô hình tính toán trong hướng tiếp cận này để tiến gần

tới các kết quả thực sự ở trên.

Hệ thống này được thừa nhận để làm việc với thời gian thực như là một

phần trong hệ thống giám sát Video cơ sở. Độ phức tạp tính toán và cả các

nhân tố bất biến của thuật toán mà chúng ta dùng ở đây là rất quan trọng cho

việc thực hiện trong thời gian thực. Do đó, cách giải quyết ở đây là chọn ra

thuật toán với thời gian chạy tối ưu nhất. Hơn nữa, việc sử dụng hệ thống này

bị hạn chế chỉ với các camera tĩnh và Video đầu vào từ các camera

Pan/Tilt/Zoom.

Hệ thống được khởi tạo bởi hình ảnh Video từ camera tĩnh giám sát một

vị trí. Hầu hết các phương thức có thể làm việc với cả hai loại ảnh Video màu

và ảnh Video đen trắng. Bước đầu tiên trong hướng tiếp cận này là phân biệt

các đối tượng nổi trội từ các nền tĩnh. Để đạt được điều này, ta sử dụng một

kết hợp giữa phương pháp trừ nền và phương pháp hậu xử lý ảnh ở mức thấp

để tạo ra một bản đồ điểm đặc trưng cho mọi frame. Ta nhóm các vùng liên

tục trong bản đồ đó để mở rộng các đặc trưng cho đối tượng riêng biệt như là

tạo các đường bao, các miền, điểm trung tâm của khối hoặc biểu đồ màu

(color histogram).

Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử

dụng bản đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một

hình chiếu cho đối tượng đó. Hình chiếu và điểm trung tâm của một khối của

27

một đối tượng được sử dụng để tạo ra một tín hiệu khoảng cách. Tín hiệu này

được co giãn, được làm trở lại bình thường và được so sánh với các nhãn tín

hiệu trước đó trong cơ sở dữ liệu mẫu để phân biệt kiểu của đối tượng. Đầu ra

của bước đánh dấu được dùng để đạt được sự thống nhất theo thời gian trong

bước phân loại.

Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng

đã được trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước

trước để làm cho phù hợp với các đối tượng sau khi xảy ra trường hợp bị che

khuất. Đầu ra của bước đánh dấu là thông tin về đường đi của đối tượng được

dùng để tính toán hướng và tốc độ của các đối tượng trong cảnh.

Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại,

đường đi, kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có

thể được áp dụng trên các dữ liệu đó. Một khả năng sử dụng thời gian thực là

đặt cảnh báo bằng tiền điều kiện với các vị từ như: “Một người di chuyển

theo phương d với tốc độ lớn hơn s sinh ra cảnh báo a1.” hoặc “một cái xe

dừng lại ở một vị trí l trong khoảng thời gian hơn t phút sinh ra cảnh báo a2.”.

Một cách khác là ta có thể tạo ra một tham chiếu trên dữ liệu Video đã được

lưu trữ cho việc tìm kiếm thông minh và độc lập. Cả hai cách trên đều là các

điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần thiết để

giám định các sự kiện.

2.1.1. Phát hiện nổi trội

Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh

mức thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối

tượng ở mỗi frame của Video. Các mô hình nền nói chung có 2 giai đoạn

phân biệt trong xử lý: khởi tạo và cập nhật.

28

2.1.1.1 Mô hình trừ nền có khả năng thích ứng

Sự thực thi của thuật toán trừ nền này làm việc trên mức xám của ảnh

Video từ một camera tĩnh [4]. Phương pháp trừ nền này khởi tạo một nền

tham khảo với một số frame đầu tiên của Video đầu vào. Sau đó, nó trừ giá trị

cường độ của mỗi điểm ảnh trong ảnh hiện thời cho giá trị tương ứng trong

ảnh nền tham khảo. Sự khác nhau này được lọc với một ngưỡng thích hợp cho

từng điểm ảnh để giải thích nguyên nhân sự thay đổi của các điểm ảnh nhiễu.

Gọi In(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí

(x) và ở trường hợp thứ n của dãy Video I thuộc trong đoạn [0,255]. Gọi Bn(x)

là giá trị cường độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo

thời gian từ ảnh Video I0 đến In-1. Một điểm ảnh ở vị trí (x) trong ảnh hiện thời

thuộc thành phần nổi trội nếu nó thỏa mãn:

|In(x) – Bn(x)|>Tn(x) (2.1)

Trong đó Tn(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo

cùng với ảnh Video đầu tiên I0, B0 = I0, và ảnh ngưỡng được khởi tạo bởi giá

trị đã được xác định trước.

Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình

nền cần tự thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng

(chuyển giữa ngày và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ

trước một tòa nhà). Vì thế nền cơ sở và các ảnh ngưỡng phải được cập nhật

liên tục từ các ảnh đầu vào. Sự phối hợp cập nhật này là khác nhau đối với các

vị trí điểm, chẳng hạn như một điểm x ∈ FG thì sẽ khác với x∈ BG :

⎩⎨⎧

∈−+∈−+

=+ FGxxIxBBGxxIxB

xBnn

nnn ),()1()(

),()1()()(1 ββ

αα (2.2)

29

⎩⎨⎧

∈∈−×−+

=+ FGxxTBGxxBxIxT

xTn

nnnn ),(

),)()()(1()()(1

γαα (2.3)

Trong đó [ ]( )0.1,0.0, ∈βα là các hằng số chỉ ra rằng có bao nhiêu thông tin

từ các ảnh vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi

điểm ảnh nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung

bình của trọng số vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh

ngưỡng là giá trị trung bình của trọng số vùng của γ lần khác nhau của các

ảnh đầu vào và nền đó. Các giá trị α, β và γ được định rõ qua thực nghiệm

bởi các Video clip ở cả bên trong và bên ngoài nhà.

Ta cập nhật nên cho tất cả các kiểu cũ các điểm ảnh (x ∈ FG, x ∈ BG).

Trong các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các

điểm ảnh thuộc nền (x ∈ BG)

Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho β. Nếu nó quá

nhỏ, các đối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame

sau. Cũng từ đó mà việc sẽ ít có khả năng phát hiện các đối tượng đã dừng lại.

Nếu nó quá lớn, các đối tượng có thể không bao giờ được phổ biến đến ảnh

nền, mô hình nền như thế sẽ không thích hợp cho sự thay đổi thời hạn lâu dài

của cảnh vật.

30

Ví dụ :

(a)

(b)

(c)

31

Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo.

Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng

phép trừ nền.

2.1.1.2. Mô hình hỗn hợp Gaussian tương thích

Stauffer và Grimson [17] đã trình bày mô hình hỗn hợp nền trực tuyến

tương thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển

động lặp đi lặp lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối

tượng chuyển động chậm. Chuyển động của chúng ở mô hình nền đơn không

thể điều khiển nhiễu, sự thay đổi ánh sáng và sự đa dạng mặt ngoài nhận được

từ ảnh đối với mỗi phần của điểm ảnh ở cùng một thời điểm.

Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian

được coi như là một ‘‘xử lý điểm’’ và sự kiện gần đây của các điểm ảnh,

{X1,…,Xt}, được mô hình bởi hỗn hợp của phân phối Gaussian K. Khả năng

của việc quan sát giá trị của điểm ảnh hiện thời trở thành:

( ) ( )∑ ∑=

=K

ititittit XXP

1,,, ,,* μηω (2.4)

Trong đó, ωi,t là một ước lượng trọng số thứ i của Gaussian (Gi,t) trong

hỗn hợp ở thời điểm t, μi,t là giá trị trung bình của Gi,t và Σi,t là ma trận hợp

của Gi,t và η là một hàm mật độ khả năng Gaussian:

∑=

−−− −

∑∑

)()(21

21

2

1

)2(

1),,( ttT

tt XX

nt eXμμ

πμη (2.5)

Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và

sức mạnh của tính toán. Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu

sau với hiệu quả tính toán

2, ktk α=∑ I (2.6)

32

Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng

biến. Thủ tục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau. Bước

đầu của hệ thống, các phân bố Gaussian K cho một điểm ảnh được khởi tạo

với giá trị trung bình được định nghĩa trước, sự khác biệt cao và trọng số ban

đầu thấp. Khi một điểm ảnh mới được phát hiện trong dãy ảnh, xác định rõ

kiểu của nó, vector RGB của nó được đánh dấu tương phản với các Gaussian

K, cho đến khi một điểm tương ứng được tìm thấy. Một điểm tương ứng được

định nghĩa như là một giá trị điểm ảnh không vượt quá chuẩn γ (=2.5) của

một phân bố. tiếp theo, các trọng số chu kỳ của các phân bố K ở thời điểm t,

ωk,t được cập nhật như sau:

),1,, ()1( tktktk Mαωαω +−= − (2.7)

Trong đó α là tỷ lệ và Mk,t bằng 1 tương ứng với phân bố Gaussian và

bằng 0 tương ứng với các phân bố còn lại. Sau bước này, các trọng số ban đầu

của các phân bố được bình thường hóa và các tham biến của Gaussian phù

hợp được cập nhật với sự theo dõi mới như sau :

)()1( 1 ttt Xρμρμ +−= − (2.8)

)()()1( 21

2tt

Ttttt XX μμρσρσ −−+−= − (2.9)

Trong đó :

),|( kktX σμαηρ= (2.10)

Nếu không tìm thấy điểm ảnh tương tự cho điểm ảnh theo dõi mới, phân

bố Gaussian với khả năng thấp nhất được thay đổi với một phân bố mới với

giá trị điểm ảnh hiện thời như là giá trị trung bình của nó, một khởi tạo với sự

khác biệt cao và trọng số ban đầu thấp.

33

Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được

sắp xếp theo giá trị của ω / σ. Danh sách đã sắp xếp của các phân bố này

tương ứng với hầu hết các nền có khả năng từ đỉnh tới đáy trong công thức

(2.7), các xử lý điểm ảnh nền thực hiện phân bố Gaussian tương ứn khi khởi

tạo với giá trị trọng số ban đầu lớn và sự cách biệt nhỏ

(a) (b)

Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm

Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó :

B=argminb ⎟⎠

⎞⎜⎝

⎛>∑

=

b

kk T

1ω (2.11)

Và T là phần nhỏ nhất của dữ liệu pixel được cho là của nền. Nếu một

giá trị nhỏ được chọn cho T, nền thường được mô hình thống nhất.

34

2.1.1.3. Sự khác biệt theo thời gian

Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau

của điểm ảnh giữa hai hoặc ba frame liên tiếp trong Video để trích rút các

vùng chuyển động. Nó là một hướng tiếp cận phù hợp cho sự thay đổi các

cảnh động ; như vậy, nó sai khi trích rút tất cả các điểm ảnh liên quan của một

đối tượng nổi trội, nhất là khi đối tượng đó có kết cấu thống nhất hoặc chuyển

động chậm. Khi một đối tượng dừng chuyển động, phương pháp khác biệt

theo thời gian sai khi phát hiện sự thay đổi giữa các frame liên tiếp và để mất

đối tượng. Các thuật toán hỗ trợ đặc biệt được yêu cầu để phát hiện các đối

tượng dừng lại.

Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame

trong hệ thống này. Đặt In(x) là giá trị cường độ của mức xám của pixel ở vị

trí (x) và ở thời điểm n của dãy ảnh Video I thuộc vào đoạn [0, 255]. Sự phối

hợp khác biệt theo thời gian của 2 frame này đề nghị thừa nhận là một điểm

ảnh đang chuyển động nếu nó thỏa mãn như sau:

)()()( 1 xTxIxI nnn >− − (2.12)

Từ đó, nếu một đối tượng có các vùng màu sắc thống nhất, công thức

2.12 sai khi phát hiện một trong số các điểm ảnh bên trong vùng đó nếu như

đối tượng chuyển động, Ngưỡng của mỗi điểm ảnh, T, khởi tạo thiết lập một

giá trị quyết định trước và sau đó cập nhật như sau :

⎩⎨⎧

∈∈−×−+

= −+ FGxxT

BGxxIxIxTxT

n

nnnn ),(

),)()()(1()()( 1

1γαα

(2.13)

Việc bổ sung thêm 2 frame khác nhau có thể được thực hiện bởi việc lợi

dụng mô hình các tham biến cập nhật của phương pháp trừ nền thể hiện trong

35

công thức 2.2. Nếu α và β bằng 0, nền này chứa ảnh In-1 và sự phối hợp trừ

nền trở thành y hệt như cách bổ sung thêm 2 frame khác nhau.

2.1.2. Bước hậu xử lý điểm ảnh

Các nhân tố khác nhau là nguyên nhân gây nhiễu trong việc phát hiện

cận cảnh như là :

- Nhiễu camera : nhiễu này nguyên nhân do các thành phần thu

nhận được từ ảnh của camera. Cường độ của các điểm tương tự như

một gờ nằm giữa hai đối tượng khác nhau về màu sắc trong một cảnh

có thể bị nhập thành một thuộc về màu của một đối tượng trong một

frame và thành một màu khác trong một frame khác.

- Nhiễu do phản xạ : khi một nguồn sáng, chẳng hạn như mặt trời,

chuyển động, nó làm cho một số phần trong cảnh nền phản xạ ánh

sáng. Hiện tượng này làm cho các thuật toán phát hiện nổi trội sai và

phát hiện phần phản xạ như là các vùng nổi bật.

- Nhiễu đối tượng có cùng màu với nền : một số phần của các đối

tượng có thể có cùng màu sắc như nền cơ sở đằng sau chúng. Sự tương

đồng này là nguyên nhân làm cho một số các thuật toán phát hiện các

điểm ảnh đó như không phải là điểm nổi bật và các đối tượng bị phân

đoạn thiếu chính xác.

- Sự thay đổi ánh sáng đột ngột và bóng : bóng đổ từ các đối tượng

được phát hiện như điểm nổi bật bởi hầu hết các thuật toán phát hiện.

Ngoài ra, sự thay đổi ánh sáng đột ngột làm cho các thuật toán sai khi

phát hiện chính xác các đối tượng thực sự nổi bật.

36

(a) (b)

(c) (d)

Hình 2.3 : Ví dụ về bước khử nhiễu pixel

(a)Ảnh nền ước lượng ; (b) : Ảnh hiện thời ; (c) : Các vùng nổi bật phát

hiện trước khi khử nhiễu ; (d) : Các vùng nổi bật phát hiện sau khi khử nhiễu

2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột

Hầu hết các thuật toán phát hiện nổi trội đều dễ bị ảnh hưởng bởi bóng

và các thay đổi đột ngột của ánh sáng, đó là nguyên nhân phân đoạn nổi trội

không đúng. Với các bước xử lý sau như phân loại đối tượng và đánh dấu yêu

cầu có sự chính xác trong việc phân đoạn đối tượng, Việc đối phó với bóng và

các thay đổi đột ngột của ánh sáng là rất quan trọng trong các hệ thống giám

sát thông minh.

37

Trong bài này, ta sử dụng phối hợp phát hiện bóng. Ta làm rõ rằng các

điểm ảnh trong các vùng vector màu RGB ở trong cùng một hướng với các

vector màu RGB của các điểm ảnh nền tương ứng với một số lượng chênh

lệch nhỏ và giá trị độ sáng của bóng điểm ảnh là nhỏ hơn độ sáng của các

điểm nền tương ứng. Để định nghĩa chính thức điều này, ta đặt Ix là màu RGB

của một điểm ảnh của ảnh hiện thời ở vị trí x, và Bx là màu RGB của điểm ảnh

nền tương ứng. Hơn nữa, đặt xI là vector mà được bắt đầu ở gốc O(0,0,0)

trong không gian màu RGB và kết thúc ở điểm Ix, đặt xB là vector của điểm

nền tương ứng với Bx và đặt dx là phép nhân (.) giữa xI và xB . Hình 2.6 thể

hiện các điểm và các vector trong không gian màu RGB. Sự phối hợp phát

hiện bóng ở đây phân loại một điểm ảnh là một phần của vùng nổi bật được

phát hiện như là bóng nếu thỏa mãn :

τ<⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛⋅=

x

x

x

xx B

BIId ˆ

ˆˆˆ

(2.14)

Và

xx BI ˆˆ < (2.15)

Trong đó τ là ngưỡng định nghĩa trước gần với một. Phép nhân (.) được

dùng để kiểm tra xem xI và xB có cùng hướng hay không. Nếu phép nhân này

(dx) của xI và xB gần đến một, nó chỉ ra rằng chúng hầu hết ở cùng một hướng

với lượng khác biệt nhỏ. Lần kiểm tra thứ hai được thực hiện để bảo đảm rằng

giá trị ánh sáng của Ix là nhỏ hơn Bx. Hình 2.7 thể thể hiện một ví dụ các vùng

cận cảnh với các bóng trước và sau khi xóa bóng.

Bên cạnh việc xóa bóng, việc phát hiện sự thay đổi ánh sáng đột ngột

cũng là một yêu cầu cần thiết đáp ứng hệ thống giám sát thông minh để tiếp

tục phát hiện và phân tích đối tượng một cách chính xác. Một sự thay đổi tổng

38

thể có thể dẫn đến nhiều trường hợp do mặt trời bị hoặc không bị che khuất

bởi mây trong môi trường bên ngoài hoặc do bật đèn trong nhà. Cả hai sự thay

đổi đó làm cho ánh sáng thay đổi đột ngột trong cảnh mà mô hình nền tương

thích không thể điều khiển được. Hình 2.4 thể hiện một ví dụ các frame trước

và sau khi ánh sáng thay đổi đột ngột. Một thực tế cho thấy rằng sự thay đổi

ánh sáng tổng thể một cách đột ngột là nguyên nhân dẫn đến các mô hình nền

phân loại với tỷ lệ lớn (>50%) của các điểm ảnh trong cảnh như là điểm nổi

bật. Như vậy, trong một số tình huống, các đối tượng thông thường chuyển

động rất gần camera, giả định này quá đơn giản và sai lầm. Theo đó, mục đích

của sự phân biệt thay đổi ánh sáng tổng thể từ chuyển động của một đối tượng

lớn, ta làm một kiểm tra khác bằng cách dựa vào thực tế rằng trong trường

hợp thay đổi ánh sáng tổng thể, sự thay đổi về hình dáng và kích cỡ của các

biên đối tượng trong một cảnh không thay đổi quá nhiều và đường bao xung

quanh của các vùng cận cảnh được phát hiện không phù hợp với các biên thực

tế trong cảnh trong khi trong trường hợp chuyển động của một đối tượng lớn

thì đường bao các vùng nổi bật được phát hiện phù hợp với các đường biên

thực tế trong ảnh.

39

Hình 2.4 : Các vector RGB của pixel ảnh hiện thời xI và pixel nền tương ứng

xB

(a) (b)

(c ) (d)

Hình 2.5 : Ví dụ về xóa bóng. (a) : Nền ước lượng ; (b) : ảnh hiện thời ;

(c) : Các pixel nổi bật được phát hiện (thể hiện ở màu đỏ) và các pixel bóng

(Thể hiện màu xanh lá) ; (d) : Các pixel sau khi đã được xóa bóng

40

(a) (b)

Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột

(a) Cảnh trước khi ánh sáng đột ngột thay đổi, (b) Cùng cảnh đó sau khi

ánh sáng đột ngột thay đổi.

Để kiểm tra xem các đường bao của các vùng phát hiện có phù hợp với

các đường biên thực sự trong ảnh hiện thời hay không, ta tận dụng các

gradient của ảnh hiện thời và của ảnh nền. Các gradient được tìm bằng cách

lấy ánh sáng khác nhau giữa các điểm ảnh liên tiếp trong các ảnh theo hai

hướng dọc và ngang. Sau khi các gradient được tìm kiếm ở cả nền và ảnh hiện

thời, một ngưỡng được áp dụng và đầu ra được biến đổi thành nhị phân. Khi

đó, các gradient của ảnh khác của nền và ảnh hiện thời được tính toán để tìm

được duy nhất các đường biên phù hợp với các vùng chuyển động. Hình 2.7

thể hiện các ảnh gradient cho nền và các ảnh hiện thời. Kết quả cuối cùng,

vùng nổi trội được phát hiện được co lại từ bề ngoài về bên trong cho đến khi

vấp phải một điểm biên trong gradient của ảnh khác. Nếu kết quả vùng nổi

trội này là rất nhỏ so với nguyên bản, thì đây là một dấu hiệu của sự thay đổi

ánh sáng tổng thể, vì thế mô hình nền được khởi tạo lại với các ảnh hiện thời

và một số các ảnh được cho phép. Các ảnh có sóng cũng có thể được sử dụng

thay cho các gradient để phân biệt sự thay đổi ánh sáng tổng thể một cách đột

ngột.

41

(a) (b)

( c) (d)

( e)

42

Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự. (a) Nền cơ sở ước

lượng ; (b) gradient của nền ; (c) ảnh hiện thời ; (d) gradient của ảnh hiện

thời ; ( e) sự khác biệt gradient.

(a) (b)

( c)

Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. (a) Nền ước

lượng ; (b) ảnh hiện thời ; ( c) các điểm ảnh nổi bật được lọc và liên kết và

đánh nhãn các vùng với các hộp bao xung quanh.

2.1.3. Phát hiện các vùng liên tục

Sau khi phát hiện các vùng nổi bật và ứng dụng các phép toán hậu xử lý

để xóa các vùng nhiễu và bóng. Các điểm ảnh nổi bật đã được lọc được nhóm

vào các vùng liên tục (các khối) và được đánh nhãn bằng cách sử dụng thuật

43

toán đánh nhãn thành phần liên tục 2 bước. Sau khi tìm các khối màu độc lập

tương ứng với các đối tượng, các hộp bao xung quanh của các vùng đó được

tính toán.

2.1.4. Bước hậu xử lý vùng

Ngay sau bước loại bỏ nhiễu, một vài vùng tự tạo nhỏ còn lại làm cho

việc phân đoạn đối tượng không đúng. Để khử các vùng loại này, kích cỡ

vùng trung bình (γ) trong giới hạn của các điểm ánh được tính toán cho mỗi

frame và các vùng có kích cỡ nhỏ hơn một số thập phân (α) của kích cỡ vùng

trung bình (Size(region)<α*γ ) bị xóa khỏi bản đồ điểm nổi bật.

Mặt khác, về các lỗi phân đoạn, một vài phần của các đối tượng được tìm

thấy không liên tục từ thân chính. Để hiệu chỉnh nhược điểm này, các hộp bao

xung quanh của một vùng là độc lập với các vùng khác mà chúng được trộn

lẫn cùng nhau và các nhãn vùng được điều chỉnh.

2.1.5. Trích rút các đặc trưng của đối tượng

Ngay khi ta phân đoạn các vùng, chúng ta trích rút các điểm đặc trưng

của các đối tượng tương ứng trong ảnh hiện thời. Các điểm đặc trưng đó là

kích thước (S), điểm trung tâm của khối (Cm), lược đồ màu (Hc) và đường

viền các đốm màu của đối tượng. Việc tính toán kích thước của đối tượng là

không quan trọng và ta chỉ đếm số các điểm ảnh nổi bật mà được chứa trong

hộp bao của đối tượng.

Để tính toán điểm chính giữa của khối điểm, Cm =(xCm,yCm), của một đối

tượng O, ta dùng công thức sau [16] :

n

yyC

nx

xCn

i im

n

i im

∑∑ == , (2.16)

44

Trong đó n là số điểm ảnh trong O

Lược đồ màu, Hc được tính toán trên các giá trị cường độ đơn sắc của các

điểm ảnh của đối tượng trong ảnh hiện thời. Để giảm độ phức tạp tính toán

của các phép toán sử dụng cho Hc, các giá trị màu được lượng tử hóa. Đặt N

là số khoảng cách (bin) trong lược đồ, khi đó mọi khoảng cách bao gồm N255

giá trị màu.

Lược đồ màu được tính toán bởi sự lặp đi lặp lại trên các điểm ảnh của O

và tốc độ tăng lên của giá trị lưu trữ của khoảng cách màu tương ứng trong

lược đồ, Hc. Với mỗi đối tượng O, lược đồ màu đươc cập nhật như sau:

OcNcH

NcH i

ic

ic ∈∀+⎥⎦

⎤⎢⎣⎡=⎥⎦

⎤⎢⎣⎡ ,1 (2.17)

Trong đó ci mô tả giá trị màu sắc của điểm ảnh thứ i. Trong bước tiếp

theo, lược đồ màu sắc được chuẩn hóa cho phép thích hợp để so sánh với các

lược đồ khác trong các bước sau. Lược đồ chuẩn hóa cH được tính như sau

[ ] [ ][ ]∑

= N

i c

c

iH

iHc iH (2.18)

2.2. Giám sát đối tượng chuyển động

Mục đích của đánh dấu đối tượng là thiết lập sự tương ứng giữa các đối

tượng và các phần của đối tượng trong các frame liên tục và để trích rút thông

tin theo thời gian về các đối tượng như đường đi, tư thế, tốc độ và phương

hướng. Đánh dấu các đối tượng được phát hiện từ frame này đến frame khác

trong Video là nhiệm vụ khó khăn và mang nhiều ý nghĩa. Nó là phần chủ yếu

của các hệ thống giám sát thông minh, trong khi các đối tượng chưa được

đánh dấu, hệ thống không thể trích rút thông tin đi kèm theo thời gian về các

đối tượng và các bước phân tích điều khiển ở mức cao hơn sẽ không thể thực

hiện. Mặt khác, phân đoạn đối tượng nổi bật không đúng do các bóng, sự

45

phản xạ ánh sáng và các tình trạng bị chồng chéo làm cho việc đánh dấu là

một vấn đề nghiên cứu khó khăn.

Ta sử dụng một thuật toán đánh dấu mức đối tượng trong hệ thống này.

Tức là, ta không đánh dấu các phần đối tượng, như là các chi của người,

nhưng ta đánh dấu đối tượng nguyên vẹn từ frame đến frame. Các thông tin

trích rút được ở mức này đều đầy đủ cho hầu hết các ứng dụng giám sát thông

minh.

Hướng tiếp cận này sử dụng các đặc điểm của đối tượng như kích thước,

tâm của khối, hộp bao xung quanh và lược đồ màu sắc được trích rút từ các

bước trước để xác minh sự liên hệ giữa đối tượng trong các frame liên tiếp

[1]. Hơn nữa, thuật toán này phát hiện đối tượng bị bít kín và phân biệt các

đặc điểm của đối tượng sau khi chia nhỏ các đối tượng bị bít kín. Bằng cách

phân tích thông tin về đường đi của đối tượng, hệ thống phát hiện này có thể

phát hiện các đối tượng rời đi và biến mất rất tốt. Lược đồ của hệ thống theo

phương pháp đánh dấu này thể hiện trong lược đồ 2.2

46

Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng

2.2.1. Tham chiếu tương tự với các đối tượng cơ bản

Biểu đồ hoạt động của thuật toán tham chiếu đối tượng thích hợp cơ bản

được thể hiện trong lược đồ 2.3. Bước đầu tiên trong thuật toán đánh dấu đối

tượng này là tham chiếu đến các đối tượng (Op’s) trong ảnh trước (In-1) đến

các đối tượng mới (Oi’s) phát hiện được trong ảnh hiện thời (In).

47

Lược đồ 2.3: Phương pháp tham chiếu đối tượng phù hợp cơ bản

Op có gần giống với Oi không? Đối tượng tiếp theo của In?

Op có tương tự với Oi không?

Kết thúc

Có tương tự mới tốt hơn của Oi không?

Cập nhật tất cả các tương tự

Có

Với tất cả các Op Với tất cả các Oi trong In

Không

Có

Khai báo một khởi tạo tương tự

Không

Có

Có

Không

Giữ lại tương tự cũKhông

Có

Không

Op có thực sự tương tự với Ok không?

So sánh sự tương tự của Oi và Ok với Op

48

Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng

Ta lưu tham chiếu của các đối tượng trong đồ thị chia làm hai phần gốc

(Bi – partite) G(m,n). Trong đồ thị này, các đỉnh biểu diễn các đối tượng (một

lớp đỉnh biểu diễn các đối tượng trước Op’s và phần còn lại biểu diễn các đối

tượng mới Oi’s) và các đường nối biểu diễn một tham chiếu giữa hai đối

tượng. Trong G(m,n), m là kích cỡ của các đối tượng trước và n là kích cỡ của

các đối tượng mới. Một đồ thị tham chiếu đơn giản thể hiện trong hình 3.13.

Để thực hiện việc tham chiếu đối tượng, ta lặp đi lặp lại trên một danh sách

của các đối tượng trước và các đối tượng mới để đánh giá sự tương tự của

chúng. Với mỗi đối tượng trước, Op, ta đánh giá với tất cả các đối tượng mới

và bắt đầu kiểm tra xem một đối tượng mới Oi trong danh sách các đối tượng

mới có thể thành một cặp với Op hay không. Ngưỡng để kiểm tra sự tương

thích được định nghĩa như là khoảng cách giữa điểm chính giữa của khối của

hai đối tượng (Op và Oi) là nhỏ hơn một hằng đã được định nghĩa trước. Việc

kiểm tra này được thúc đẩy bởi thực tế rằng sự thay đổi chỗ của một đối

tượng giữa các ảnh liên tiếp chỉ nên xẩy ra rất nhỏ. Nói một cách khác, hai đối

tượng với các điểm trọng tâm cp và ci được coi là gần nhau nếu thỏa mãn:

τ<),( ip ccDist (2.19)

Trong đó hàm Dist() được định nghĩa như là khoảng cách Euclidean giữa

hai điểm:

49

22 )()(),(ipip ccccip yyxxccDist −+−= (2.20)

Trong khi mỗi cặp đối tượng tạo thành một đôi thuộc về một ngưỡng

không đảm cần thiết là một sự tham chiếu thành công, trong bước tiếp theo, ta

kiểm tra sự tương tự của các cặp đó để cải thiện việc tham chiếu chính xác

hơn. Tiêu chuẩn để so sánh tượng tự là tỉ lệ kích cỡ của các đối tượng. Hai đối

tượng khác biệt được coi là tương tự nếu nó thỏa mãn:

μ<i

p

ss

hoặc μ<p

i

ss

(2.21)

Trong đó si là kích cỡ của đối tượng Oi và μ là một ngưỡng được định

nghĩa trước. Việc kiểm tra các đối tượng theo kích thước là rất hữu ích nếu

một đối tượng trong frame trước tách ra thành một vùng lớn và một vùng rất

nhỏ thì phân đoạn không đúng. Việc kiểm tra này loại trừ khả năng tham

chiếu giữa một vùng lớn và một vùng nhỏ.

Nếu chúng ta chỉ thực hiện hai bước trên, ta sẽ tới gần với các trường

hợp mà ở đó đối tượng trước được tham chiếu đến nhiều hơn một đối tượng

mới.. Như vậy, sau bước thứ hai ta kiểm tra khả năng đối tượng Op có thực sự

tham chiếu/ tương tự thêm nữa hay không. Nếu đối tượng Op không có sự

tương ứng đầu tiên, ta kết nối đến đỉnh tương ứng trong đồ thị bi-partite

G(m,n) và tiếp tục với đối tượng mới tiếp theo là Oi, nhưng nếu Op có một

tương tự đầu tiên là Ok, ta thực hiện thêm một bước để giải quyết sự xung đột.

Trong việc giải quyết xung đột tham chiếu ta so sánh các sự tương tự của

các đối tượng Oi và Ok với Op, ta cố gắng lựa chọn một trong hai là Oi hoặc Ok

là tham chiếu đúng của đối tượng Op. Sự tương ứng này được so sánh bằng

cách sử dụng khoảng cách giữa điểm trọng tâm của các khối của Op và Oi

hoặc Ok. Đặt dpi là khoảng cách giữa trọng tâm của Op và Oi, dpk là khoảng

cách giữa điểm trọng tâm của Op và Ok. Sự tương ứng này được giải quyết với

50

sự thiên về Ok nếu dpk<dpi hoặc ngược lại sẽ chọn Oi. Chúng ta có thể sử dụng

các chuẩn mạnh hơn trong tham chiếu, như là so sánh lược đồ màu sắc,…

Một trường hợp xung đột khác nảy sinh trong trường hợp nếu Oi có một

đối tượng tương ứng từ đầu đã được xác lập trong danh sách các đối tượng

trước đó. Chẳng hạn, Op-1 có thể là tham chiếu của Oi, và trong khi lặp lại việc

tìm kiếm tham chiếu lần tiếp theo cho Op, rất có thể rằng Oi sẽ trở thành tham

chiếu của Op. Nhưng ta biết Oi đã có đối tượng tương ứng là Op-1. Do đó,

nguyên nhân xung đột đối tượng tương ứng tương tự như trường hợp này đòi

hỏi ta phải đưa ra cách giải quyết bằng cách sử dụng phối hợp khoảng cách cơ

sở thể hiện trong đồ thị trước.

Trong khi xác lập tham chiếu giữa các đối tượng trước và các đối tượng

mới có 5 trường hợp tham chiếu khác nhau, ta có thể nêu ra như sau:

- One – to – one: Mỗi đối tượng trước Op được tham chiếu với một

đối tượng đơn Oi. Các đặc điểm của Op được cập nhật thêm thông tin từ

Oi

- One – to – many: Mỗi đối tượng trước Op được tham chiếu với

nhiều hơn một đối tượng mới. Trường hợp xung đột này sẽ được giải

quyết bởi việc so sánh khoảng cách cơ sở và nó quay về trường hợp thứ

nhất.

- One – to – none: Mỗi đối tượng trước Op không tham chiếu đến

bất kỳ đối tượng mới nào. Trường hợp này xảy ra nếu một đối tượng

biến mất từ cảnh hoặc nếu đối tượng này được bị che khuất bởi các đối

tượng khác. Trong trường hợp bị che khuất, đối tượng này sẽ được giữ

lại trong quá trình phát hiện của đối tượng tương ứng bị bít kín tách ra,

nếu không thì đối tượng này sẽ bị xóa khỏi danh sách trước.

51

- None – to – one: Trường hợp một đối tượng mới Oi không tham

chiếu đến bất kỳ một đối tượng nào trong các đối tượng đã tồn tại.

Trường hợp này xảy ra nếu một đối tượng mới được thêm vào trong

cảnh hoặc các đối tượng bị che khuất tách ra. Trong trường hợp một đối

tượng bị che khuất tách ra (sẽ được mô tả ở phần tiếp theo) nếu nó là

một đối tượng mới được thêm vào, đối tượng Oi được thêm vào danh

sách các đối tượng được đánh dấu.

- Many – to – one: Trường hợp một đối tượng mới Oi được tham

chiếu với nhiều hơn một đối tượng trước đó. Trường hợp xung đột này

được giải quyết bởi việc so sánh sự tương ứng về khoảng cách cơ bản

và trở thành trường hợp 1

Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất

2.2.2. Điều khiển sự chồng chéo của các đối tượng

Hầu hết các phương pháp phát hiện đối tượng không thể phát hiện các

đối tượng bị che lấp. Vì thế, công nghệ đặc biệt này mong muốn đánh dấu các

đối tượng ngay cả trong các trường hợp bị che khuất. Hệ thống đánh dấu này

sử dụng phương pháp đánh giá dựa trên kinh nghiệm đơn giản để phát hiện và

tách các nhóm đối tượng bị che lấp và phân biệt các đối tượng đồng dạng.

52

2.2.2.1 Phát hiện các đối tượng bị che khuất

Ta sử dụng một giả định đơn giản trong việc phát hiện sự che khuất. Khi

một đối tượng Op được phát hiện biến mất bằng cách dùng thuật toán tham

chiếu đối tượng ban đầu (trường hợp 2, mục 2.2.1), ta kiểm tra xem có một

đối tượng mới Oi nào có đường bao xung quanh che lên Op và nó được tham

chiếu bởi đối tượng trước là Ot. Trong trường hợp thế này, có khả năng cao là

Op và Ot bị che khuất bởi một đối tượng khác có hình dạng mới là Oi. Sau khi

phát hiện ra trường hợp này, ta không xóa bỏ đối tượng Op ở trong danh sách

các đối tượng trước nhưng đánh dấu là nó bị che khuất. Ta tạo ra một nhóm

các đối tượng bị che khuất từ các đối bị che khuất này và chỉ định một nhóm

che khuất ID mới cho các đối tượng đó. Với trường hợp, nếu một trong các

đối tượng bị che khuất đã tồn tại trong nhóm ID, ta trộn các nhóm bị che

khuất lại thành một. Ta cũng lưu lại lược đồ màu trước khi bị che khuất của

các đối tượng để sử dụng trong xử lý nhận dạng sau khi tác ra.

2.2.2.2. Phát hiện các đối tượng tách ra

Ta cũng dựa theo kinh nghiệm để phát hiện các đối tượng tách ra sau khi

bị che khuất. Khi một đối tượng Oi được tìm thấy trong một cảnh bởi thuật

toán tham chiếu đối tượng, ta kiểm tra xem có đối tượng trước Ot có đường

bao che khuất Oi và có giá trị trong nhóm ID và được tham chiếu bởi một đối

tượng mới là Ok. Trong trường hợp này có thể coi như là một đối tượng vừa

tách ra. Ta kiểm tra danh sách đối tượng trước về các đối tượng có cùng nhóm

bị che khuất ID với Op xem liệu có phải Op và Ot cùng bị che lấp bởi một đối

tượng trước đó không. Khi đó ta có 2 đối tượng đánh dấu TO={Op, Ot} và hai

đối tượng mới NO={Oi,Ok}. Bây giờ, ta cần nhận dạng đối tượng trong TO

tương ứng với đối tượng trong NO.

53

2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng

Để tham chiếu các đối tượng trong TO đến các đối tượng tương ứng

trong NO, ta sử dụng cách lưu lại lược đồ màu trước khi bị che khuất của việc

đánh dấu các đối tượng và lược đồ màu của các đối tượng mới. Dù ta không

thể tham chiếu các đối tượng cơ bản ở vị trí của chúng, sử dụng khoảng cách

là không khả thi trong trường hợp này. Như vậy, để so sánh sự tương tự của

các đối tượng, ta sử dụng khoảng cách lược đồ màu.

Khoảng cách dab giữa hai lược đồ màu thông thường Ha và Hb với N bin

được tính toán bằng cách sử dụng ma trận L1 như sau:

[ ] [ ]∑ −=N

ibaab iHiHd (2.22)

Từ giờ ta giữ hai lược đồ của mỗi đối tượng, một cao hơn phần thân của

đối tượng và một thấp hơn, ta tính toán toàn bộ khoảng cách bằng cách tổng

kết các khoảng cách giữa các lược đồ màu tương ứng của các đối tượng. Đó

là:

dtotal = dupper histogram +dlower histogram (2.23)

Sau đây là một ví dụ về các đối tượng và các histogram trước và sau khi

che khuất và bảng khoảng cách của chúng

(a) (b)

54

( c) (d)

(e) (f)

Đối tượng A sau Đối tượng B sau

Đối tượng A trước 0.283156 0.467758

Đối tượng B trước 0.358641 0.241878

(g)

Hình 2.11: Nhận dạng đối tượng sau khi che khuất

(a) Ảnh trước khi che lấp

(b) Ảnh sau khi che lấp

(c) Histogram màu của đối tượng A trước khi che lấp

(d) Histogram màu của đối tượng B trước khi che lấp

(e) Histogram màu của đối tượng A sau khi che lấp

(f) Histogram màu của đối tượng B sau khi che lấp

(g) Bảng khoảng cách histogram màu của các đối tượng A, B

55

2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ

Khả năng phát hiện sự dời đi và loại bỏ của các đối tượng là vấn đề sống

còn của một số ứng dụng giám sát. Phát hiện các đối tượng dời đi như hành lý

không có chủ trong các sân bay hoặc một chiếc xe đỗ trước một tòa nhà an

ninh nhạy cảm là rất quan trọng. Những hoạt động đó có thể được thực hiện

bởi những kẻ khủng bố làm tổn hại mọi người. Mặt khác, bảo vệ các đối

tượng tránh xa khỏi những vật đổi chỗ mà không được phép có những ứng

dụng rất quan trọng như là các hệ thống giám sát ở các bảo tàng, triển lãm

nghệ thuật hoặc các tòa nhà lưu trữ cần tránh trộm cắp. Nhờ có các ứng dụng

đó, đối tượng dời đi và biến mất là một phần quan trọng của hệ thống giám

sát.

Hệ thống ta trình bày ở đây có thể phát hiện và phân biệt các đối tượng

dời đi và biến mất trong Video. Để đạt được điều này, ta sử dụng phối hợp trừ

nền tương ứng, phương pháp đánh dấu đối tượng và các kinh nghiệm thực tế

để phân biệt các đối tượng dời đi từ các đối tượng biến mất. Có ba bước để

phát hiện sự dời đi và sự biến mất của các đối tượng như sau:

1. Phát hiện một sự thay đổi giữa ảnh hiện thời với ảnh nền cơ sở bằng

cách sử dụng phối hợp trừ nền tương ứng.

2. Quyết định rằng vùng chuyển động được phát hiện có phù hợp với

một sự dời đi và biến mất của đối tượng bằng cách sử dụng phương

pháp đánh dấu đối tượng.

3. Phân biệt các đối tượng dời đi từ các đối tượng biến mất bằng cách

sử dụng thuộc tính màu thống kê của các vùng được phát hiện và

đường bao xung quanh của nó.

Không giống như một số thuật toán khác, chẳng hạn như sự khác biệt

theo thời gian, thuật toán trừ nền tương ứng này có thể phát hiện được các đối

56

tượng dời đi hoặc biến mất cho một giai đoạn thời gian dài. Với sự trợ giúp

của phương pháp đánh dấu, ta phát hiện đối tượng đứng yên bằng thông tin về

đường đi của nó. Nếu một phần hiện thời của thông tin về đường đi thể hiện

rằng đối tượng không chuyển động một thời gian đã lâu (ví dụ như chu kỳ

cảnh báo), ta quyết định vùng tương ứng là đứng yên và có khả năng nó sẽ

dời đi hoặc biến mất.

Để phân biệt kiểu của đối tượng (dời đi hay biến mất), ta sử dụng các đặc

tính tĩnh của các giá trị màu ở bên trong và ở viền của vùng được phát hiện.

Đặt R là vùng tương ứng với một sự thay đổi với thời hạn dài trong nền; S là

đường bao xung quanh của R và đặt AX là giá trị cường độ màu trung bình

trong vùng X. Kinh nghiệm cho thấy từ các cuộc thử nghiệm về đối tượng dời

đi/ biến mất là nếu các giá trị của AR và AS là gần nhau, khi đó cho biết rằng

vùng các đối tượng được phát hiện và vùng bao của nó hầu hết có cùng màu

cho nên vùng này tương ứng với đối tượng chuyển chỗ. Mặt khác, nếu AR và

AS không gần nhau cho thấy rằng vùng này tương ứng với đối tượng biến mất.

Việc xác định AR và AS có gần nhau hay không như sau:

,1≤≤S

R

AAτ nếu AR ≤ AS

(2.24)

1≤≤R

S

AAτ , nếu AS ≤ AR

Trong đó τ là một hằng được định nghĩa trước(≈0.85). Sau đây là miêu tả

hình vẽ thể hiện các vùng AR và AS và hai ảnh Video thể hiện hai trường hợp

dời đi và di chuyển của các đối tượng.

57

(a) (b)

(c) (d)

Hình 2.12: Phân biệt các đối tượng dời đi và biến mất

(a) Cảnh nền, (b) Vùng R và S, (c) Ví dụ về đối tượng dời đi, (d) vì dụ

về đối tượng biến mất.

58

Chương 3

ỨNG DỤNG

3.1. Giám sát tự động dưới sự trợ giúp của Camera

Ngày nay, công nghệ thông tin đã xâm nhập vào mọi ngõ ngách của cuộc

sống. Việc sử dụng các hệ thống giám sát bằng camera trở nên vô cùng quan

trọng. Trong giao thông, người ta lắp đặt các camera giám sát ở các ngã ba,

ngã tư, đường hầm, nhà ga và các vị trí nhạy cảm để giám sát tai nạn giao

thông, các vi phạm luật giao thông của các phương tiện,… Trong các bảo

tàng, người ta sử dụng hệ thống camera để giám sát các vật trưng bày để tránh

trường hợp bị mất cắp. Các vùng nhạy cảm về an ninh, ta có các hệ thống

giám sát để có thể cảnh báo kịp thời những hành vi khả nghi liên quan đến

khủng bố, trộm cắp, hỏa hoạn… Ở các siêu thị, người ta dùng hệ thống

camera giám sát để tránh các trường hợp trộm cắp hàng hóa,....

Như vậy, các hệ thống giám sát là rất cần thiết và hữu ích cho xã hội.

Hiện nay, các hệ thống giám sát hoạt động tốt dựa vào công nghệ phần cứng,

tuy nhiên, như đã nói ở trên, phần mềm nhúng ra đời để làm giảm chi phí cho

việc sản xuất các thiết bị phần cứng chuyên dụng vốn rất đắt đỏ. Việc cài đặt

các phần mềm giám sát vào các hệ thống giám sát là rất cần thiết.

Với các phương pháp về phát hiện, đánh dấu, phân loại đối tượng đã nêu

ở trên, ta có thể xây dựng một phần mềm giám sát để làm giảm thiếu chi phí

cho các thiết bị phần cứng đồng thời có tính bảo mật cao.

Nhờ camera và các phương pháp phát hiện đối tượng chuyển động trong

camera, ta có thể xây dựng các phần mềm điều khiển, các phần mềm hỗ trợ.

Chẳng hạn như phần sử dụng tia laze để điều khiển các chương trình ứng

dụng chạy trên máy tính. Phần mềm hỗ trợ giao tiếp giữa người khuyết tật với

máy tính,…

59

3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng

Bài toán đặt ra là với ảnh thu nhận được từ camera, chương trình ứng

dụng sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo vết đang

ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát

đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí đối

tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn (vị

trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click,

Double click, Drap & Drop…).

Hình 3.1: Sơ đồ mô tả các tiến trình xử lý của hệ thống

Thuật toán phát hiện sự chuyển động

Có nhiều phương pháp tiếp cận để phát hiện chuyển động trong hình

ảnh Video liên tục. Có thể so sánh khung hình hiện tại với hình nền chúng ta

chụp từ ban đầu khi bật camera hoặc từ khung hình trước. Đối với phương

pháp thứ nhất thì đơn giản và giảm được việc xử lý. Tuy nhiên, cách tiếp cận

có một bất lợi lớn, ví dụ nếu có một đối tượng đang di chuyển ở frame đầu

tiên nhưng sau đó nó đã biến mất. Phương pháp thứ hai thì xử lý phức tạp

hơn, xử lý nhiều hơn nhưng lại thích nghi với mọi môi trường, kể cả môi

trường ít thay đổi hoặc thay đổi nhiều. Nhược điểm là nếu đối tượng di

chuyển một cách rất chậm thì hệ thống không phát hiện ra. Nhưng có thể giải

quyết bằng cách tăng số khung hình trên giây. Trong đề tài này giới thiệu theo

phương pháp thứ hai.

60

Ngưỡng (Threshold)

Nguỡng (Threshold) là một khái niệm khá quen thuộc trong xử lý ảnh

cũng như rất nhiều giải thuật khác. Nó dùng để chỉ một giá trị mà người ta

dựa vào để phân hoạch một tập hợp thành các miền phân biệt.

Ví dụ thang điểm đánh giá học sinh là từ 1 đến 10. Trong một tập hợp gồm 40

học sinh của 1 lớp, người ta muốn phân lọai ra hai miền, miền thứ nhất bao

gồm các học sinh đạt yêu cầu và miền thứ hai gồm các học sinh không

đạt. Trong tình huống đó người ta dùng giá trị 5 (điểm) như là một ngưỡng

(threshold) để phân loại học sinh. Các học sinh có điểm dưới 5 sẽ xem như

không đạt, những học sinh có điểm từ 5 trở lên là đạt yêu cầu. Giá trị ngưỡng

thường được xác định dựa vào những điểm đặc biệt (ví dụ ở trung bình), dựa

vào kinh nghiệm khảo sát. Nếu dựa vào số lượng ngưỡng áp dụng cho cùng

một tập dữ liệu người ta sẽ phân ra các phương pháp ứng dụng ngưỡng đơn,

ngưỡng kép, hay đa ngưỡng. Nếu dựa vào sự biến thiên của giá trị

ngưỡng, trong cùng phạm vi ứng dụng người ta sẽ phân ra các phương pháp

dùng ngưỡng cố định (Constant|Fixed Threshold) và không cố định (Adaptive

Threshold). Ngưỡng không cố định nghĩa là giá trị của nó sẽ thay đổi tùy theo

sự biến thiên của tập dử liệu theo không gian và thời gian. Thông thường giá

trị này được xác định thông qua khảo sát bằng phương pháp thống kê. Để dễ

hình dung hơn về ứng dụng khái niệm Threshold, sau đây chúng ta sẻ xét một

ví dụ bộ lọc ngưỡng (Threshold Filter) đơn giản trong xử lý ảnh.

Với mỗi pixel trong hình đa mức xám (grayscale) ở trên giá trị sẽ trong

khoảng 0 - 255 vậy pixel nào lớn hơn ngưỡng là 120 ta gán giá trị cho nó

thành đen (0), ngược lại gán giá trị trắng (255). Kết quả thu được như sau:

61

Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng

62

Hình 3.3: Lưu đồ thuật toán phát hiện sự chuyển động

End

Pixel ảnh đầu ra màu đen

Không có sự di chuyển

Pixel ảnh đầu ra màu trắng

Số điểm trắng > Ngưỡng

Có sự di chuyển

Begin

Thu khung hình hiện tại, và trước

Chuyển thành ảnh xám

So sánh từng pixel của 2 ảnh xám

Giá trị>ngưỡng cho trước

N

N

Y

Y

63

3.2.1. Giao diện của chương trình:

Hình 3.4: Giao diện chương trình demo

3.2.2. Các chức năng của chương trình:

Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động

Chức năng này cho phép mở các Video từ một file AVI, từ camera gắn trực

tiếp với máy tính.

64

Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết

Chức năng này giám sát đối tượng mà mình muốn theo vết

Hình 3.7: Chức năng theo vết đối tượng được lựa chọn để theo vết (tiếp theo)

65

Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết

Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng

cần theo vết

66

Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse”

Chức năng này theo màu của một đối tượng và xác định vị trí của đối tượng

để đưa con trỏ tới đúng vị trí đối tượng đang đứng, mục đích là muốn thông

qua đối tượng bên ngoài như bàn tay để qua camera có thể duyệt web, sử

dụng các thao tác căn bản như Click, Double click …

67

KẾT LUẬN

Như ta đã biết, giám sát bằng camera được ứng dụng rộng rãi trong nhiều

lĩnh vực của cuộc sống, việc nghiên cứu các vấn đề liên quan đến các hệ thống

giám sát này nhằm đưa ra các cảnh báo chính xác, kịp thời là một công việc

mang tính thực tiễn cao. Chúng ta cũng biết rằng kết quả thu nhận được từ các

camera giám sát là Video. Như vậy việc nghiên cứu chính ở đây là phát hiện

đối tượng chuyển động trong Video.

Video thu nhận được từ các camera sẽ được xử lý qua các công đoạn sau:

Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân

loại chúng và sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo

vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục

bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí

đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn

(vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click,

Double click, Drap & Drop, Zoom out, Zoom in…)

Sau khi nghiên cứu các phương pháp đó, sẽ tìm ra phần ưu, phần nhược

của từng phương pháp, từ đó có bước kết hợp giữa các phương pháp hoặc đưa

ra các giải pháp để khắc phục các nhược điểm nhằm xây dựng một hệ thống

giám sát tối ưu nhất có thể. Trong nghiên cứu này tôi cũng đã cài đặt thành

công một số phương pháp phát hiện và đánh dấu đối tượng chuyển động. Hệ

thống đầu vào trong bản demo này là lấy hình ảnh trực tiếp từ webcam gắn vào

máy tính hoặc lấy một file Video có phần đặc trưng là AVI từ nguồn có sẵn

hoặc các Video lấy từ nguồn trực tuyến.

Hướng nghiên cứu sâu hơn của đề tài này mà tôi quan tâm đó là phát hiện

và phân loại từng phần chuyển động của đối tượng, từ đó xây dựng các ứng

68

dụng hỗ trợ cho con người. Một hướng khác nữa là tìm hiểu rõ về đặc điểm của

lửa, từ đó xây dựng các hệ thống cảnh báo hỏa hoạn.

69

TÀI LIỆU THAM KHẢO

[1] A. Amer. Voting-based simultaneous tracking of multiple Video objects. In

Proc. SPIE Int. Symposium on Electronic Imaging, Santa Clara, USA, January

2003.

[2] J. L. Barron, D. J. Fleet, and S. S. Beauchemin. Performance of optical flow

techniques. International Journal of Computer Vision, 12(1):43–77, 2004.

[3] R. Cutler and L.S. Davis. Robust real-time periodic motion detection, analysis

and applications. In IEEE Transactions on Pattern Analysis and Machine

Intelligence, 2003.

[4] R. T. Collins et al. A system for Video surveillance and monitoring: VSAM final

report. Technical report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon

University, May 2006.

[5] T. Brodsky et al. Visual Surveillance in Retail Stores and in the Home,

Boston, 2002.

[6] I. Haritaoglu, D. Harwood, and L.S. Davis. W4: A real time system for detecting

and tracking people. In Computer Vision and Pattern Recognition, 2008.

[7] J. Heikkila and O. Silven. A real-time system for monitoring of cyclists and

pedestrians. In Proc. of Second IEEE Workshop on Visual Surveillance, Fort

Collins, Colorado, June 2009.

[8] A. J. Lipton. Local application of optic flow to analyse rigid versus non-rigid

motion. Technical Report CMU-RI-TR-99-13, Robotics Institute, Carnegie Mellon

University, Pittsburgh, PA, December 2009.

[9] A. J. Lipton, H. Fujiyoshi, and R.S. Patil. Moving target classification and

tracking from real-time Video. In Proc. of Workshop Applications of Computer

Vision, 2008.

70

[10] C. B. Liu and N. Ahuja. Vision based fire detection. In IEEE International

Conference on Pattern Recognition, Cambridge, UK, August 2004. to appear.

[11] B. D. Lucas and T. Kanade. An iterative image registration technique with an

application in stereo vision. In Seventh International Joint Conference on Artificial

Intelligence, pages 674–679, Vancouver, 2007.

[12] J. S. Marques, P. M. Jorge, A. J. Abrantes, and J. M. Lemos. Tracking groups

of pedestrians in Video sequences. In Proc. of IEEE Workshop on Multi-Object

Tracking, Madison, June 2003.

[13] A. M. McIvor. Background subtraction techniques. In Proc. of Image and

Vision Computing, New Zealand, 2008.

[14] C. Papageorgiou, T. Evgeniou, and T. Poggio. A trainable pedestrian detection

system. In Proc. of IEEE Int. Conf. on Intelligent Vehicles, Germany, October

2008.

[15] M. Saptharishi, J.B. Hampshire II, and P. Khosla. Agent-based moving object

correspondence using differential discriminative diagnosis. In Proc. Of Computer

Vision and Pattern Recognition, 2003.

[16] E. Saykol, U. Gudukbay, and O. Ulusoy. A histogram-based approach for

object-based query-by-shape-and-color in multimedia databases. Technical Report

BUCE-0201, Bilkent University, 2007.

[17] C. Stauffer and W. Grimson. Adaptive background mixture models for realtime

tracking. In Proc. of the IEEE Computer Society Conference on Computer Vision

and Pattern Recognition, 2005.

[18] B. U. Toreyin. Moving object detection and tracking in wavelet compressed

Video. Master’s thesis, Bilkent University, 2003.

[19] Fleet, D.J. and Weiss, Y., Optical flow estimation, Mathematical models for

Computer Vision: The Handbook. N. Paragios, Y. Chen, and O. Faugeras (eds.),

Springer, 2005.

71

[20] L. Wang, W. Hu, and T. Tan. Recent developments in human motion analysis,

March 2003.

[21] L. Wixson and A. Selinger. Classifying moving objects as rigid or non-rigid. In

Proc. of DARPA Image Understanding Workshop, 2008.

[22] M. Xu and T. Ellis. Colour-Invariant Motion Detection under Fast

Illumination Changes, Boston, 2002.

cuonluanvan_viet.pdf

Documents