Ứng dụng ontology trong tích hợp dữ liệu đô thị

7
1 NG DNG CÔNG NGHTRI THC TRONG TÍCH HP DLIỆU ĐÔ THỊ VÀ XÂY DNG THÀNH PHTHÔNG MINH Phòng Thông tin Xây dng Trung tâm Thông tin và Dch vxây dng SXây dng TP. HChí Minh I. TÍCH HP DLIU VÀ CÔNG NGHTRI THC 1. Tích hp dliu Các nghiên cu vcông nghtích hp dliu bắt đầu tgia những năm 1980s và đã tồn ti suốt hơn 20 năm nay. Lúc đầu là vic tích hp nhiều cơ sở dliu (multi- databases), và hiện nay đã phát triển thành vic tích hp dliu dbit (heterogeneous data integration). Tính dbit ca dliu có thchia thành bn nhóm chính, đó là sự khác nhau vcác mt: hthng, cú pháp, cu trúc và ngnghĩa (system, syntax, structure and semantic). Phm vi và vai trò ca vic tích hp dliu theo đà phát triển ca CNTT sau này đã được mrng vnhiu mt. Nhưng cho đến nay, ba trong bn vấn đề này đã được gii quyết bi nhng công nghđa ngành như: CORBA, DCOM, XML, GML… ngoại trvvấn đề ngnghĩa vẫn còn đang được tiếp tc hoàn thin bi công nghtri thc. 2. Hin trng dliu đô thị Ngày nay, vic tng hp dliu gia các ngành của đô thị rất khó khăn, do được lưu ở những nơi khác nhau và quy mô dliệu hình thành ngày càng tăng tốc độ cp snhân. Dliệu đô ththường khác nhau vquy mô, tốc độ, chất lượng, định dng và quan trng nht là khác bit vmt ngnghĩa và thường áp dụng các mô hình và lược đồ dliu (data model and schema) khác nhau để mô tchúng khi thiết kế. Dliệu đô thị thường dng tĩnh hay bán tĩnh như: quản lý nhân khu, thng kê dân s, phân btui tác, gii tính, thu nhp bình quân, din tích sdụng đấtNgoài nhng dliệu tĩnh, còn có ngày càng nhiều lung dliệu động xut phát tcác ngun như: các hệ thng cm biến, camera, dòng xe clưu thông, tình hình thời tiết và nhng thông svđiều kiện môi trường… Ngày nay, nn tng ca mt đô thị kthut sbao gm nhiu loi công nghthông tin khác nhau như: CAD, GIS, VR, Web, RS (remote sensing), công nghtri thức…. Hơn nữa, dliệu đô thị càng phc tp do có thkhác nhau rt nhiu v: cp chính xác, mức độ chi tiết, độ phân gii, tn sut xy ra, dliu tri thc theo không gian- thi gian (spatio-temporal knowledge)... Ngoài ra, do sphc tp và khác nhau gia các kho dliu nên trong quá trình qun lý và ra quyết định, các ngành thường tiếp cn mt cách riêng l, thao tác trên

Upload: dt-cosic

Post on 11-Apr-2017

15 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Ứng dụng ontology trong tích hợp dữ liệu đô thị

1

ỨNG DỤNG CÔNG NGHỆ TRI THỨC

TRONG TÍCH HỢP DỮ LIỆU ĐÔ THỊ

VÀ XÂY DỰNG THÀNH PHỐ THÔNG MINH

Phòng Thông tin Xây dựng

Trung tâm Thông tin và Dịch vụ xây dựng

Sở Xây dựng TP. Hồ Chí Minh

I. TÍCH HỢP DỮ LIỆU VÀ CÔNG NGHỆ TRI THỨC

1. Tích hợp dữ liệu

Các nghiên cứu về công nghệ tích hợp dữ liệu bắt đầu từ giữa những năm 1980s

và đã tồn tại suốt hơn 20 năm nay. Lúc đầu là việc tích hợp nhiều cơ sở dữ liệu (multi-

databases), và hiện nay đã phát triển thành việc tích hợp dữ liệu dị biệt (heterogeneous

data integration). Tính dị biệt của dữ liệu có thể chia thành bốn nhóm chính, đó là sự

khác nhau về các mặt: hệ thống, cú pháp, cấu trúc và ngữ nghĩa (system, syntax,

structure and semantic).

Phạm vi và vai trò của việc tích hợp dữ liệu theo đà phát triển của CNTT sau này

đã được mở rộng về nhiều mặt. Nhưng cho đến nay, ba trong bốn vấn đề này đã được

giải quyết bởi những công nghệ đa ngành như: CORBA, DCOM, XML, GML… ngoại

trừ về vấn đề ngữ nghĩa vẫn còn đang được tiếp tục hoàn thiện bởi công nghệ tri thức.

2. Hiện trạng dữ liệu đô thị

Ngày nay, việc tổng hợp dữ liệu giữa các ngành của đô thị rất khó khăn, do được

lưu ở những nơi khác nhau và quy mô dữ liệu hình thành ngày càng tăng tốc độ cấp số

nhân. Dữ liệu đô thị thường khác nhau về quy mô, tốc độ, chất lượng, định dạng và

quan trọng nhất là khác biệt về mặt ngữ nghĩa và thường áp dụng các mô hình và lược

đồ dữ liệu (data model and schema) khác nhau để mô tả chúng khi thiết kế.

Dữ liệu đô thị thường ở dạng tĩnh hay bán tĩnh như: quản lý nhân khẩu, thống kê

dân số, phân bố tuổi tác, giới tính, thu nhập bình quân, diện tích sử dụng đất… Ngoài

những dữ liệu tĩnh, còn có ngày càng nhiều luồng dữ liệu động xuất phát từ các nguồn

như: các hệ thống cảm biến, camera, dòng xe cộ lưu thông, tình hình thời tiết và những

thông số về điều kiện môi trường…

Ngày nay, nền tảng của một đô thị kỹ thuật số bao gồm nhiều loại công nghệ

thông tin khác nhau như: CAD, GIS, VR, Web, RS (remote sensing), công nghệ tri

thức…. Hơn nữa, dữ liệu đô thị càng phức tạp do có thể khác nhau rất nhiều về: cấp

chính xác, mức độ chi tiết, độ phân giải, tần suất xảy ra, dữ liệu tri thức theo không

gian- thời gian (spatio-temporal knowledge)...

Ngoài ra, do sự phức tạp và khác nhau giữa các kho dữ liệu nên trong quá trình

quản lý và ra quyết định, các ngành thường tiếp cận một cách riêng lẻ, thao tác trên

Page 2: Ứng dụng ontology trong tích hợp dữ liệu đô thị

2

những tập dữ liệu nội bộ để những giải quyết vấn đề trước mắt và phục vụ cho mục đính

của riêng ngành mình. Hầu hết sự kết nối thông tin giữa các bộ phận của đô thị hiện nay

thực hiện thủ công nên tốn nhiều thời gian, công sức.

Tình trạng này dẫn đến nhu cầu cần phải có giải pháp khung cho phép liên thông

để trao đổi và sử dụng chung dữ liệu, bằng cách khai thác một cách có hệ thống tiềm

năng tổng hợp của nhiều nguồn dữ liệu khác nhau của đô thị. Cách tiếp cận như vậy là

đặc biệt quan trọng khi xây dựng thành phố thông minh.

3. Công nghệ tri thức và tích hợp dữ liệu

a. Công cụ tri thức ontology

Khái niệm ontology (bản thể) ban đầu xuất phát từ triết học, nó thể hiện bản chất,

tinh chất của sự vật. Có nhiều định nghĩa về khái niệm ontology theo cách tiếp cận trong

các lĩnh vực như: triết học, ngôn ngữ học, trí thông minh nhân tạo, truy xuất thông

tin…Ở đây ta chọn định nghĩa trong lĩnh vực trí thông minh nhân tạo do Gruber đề xuất

năm 1993: Ontology là “những đặc điểm của khái niệm, được sử dụng để giúp các

chương trình máy tính và con người chia sẻ tri thức” [6].

Theo Studer, ontology là sự mô tả cụ thể, chính tắc và có tính pháp lý để chia sẻ

mô hình nhận thức (“specific, formal and canonical explanation for sharing conceptual

model” [7]). Ontology là mô tả chuẩn tắc và rõ ràng về một khái niệm. Vì vậy, áp dụng

công nghệ này có thể giải quyết tận gốc vấn đề còn tồn tại lâu nay là việc hiểu khác

nhau về ngữ nghĩa khi trao đổi thông tin, dữ liệu và có thể giúp hiện thực hóa việc tích

hợp dữ liệu ở cấp cao nhất ở bước thiết kế tổng thể.

b. Ứng dụng công ontology trong tích hợp dữ liệu

Các hệ thống tích hợp dữ liệu thời gian đầu chủ yếu áp dụng mô hình dữ liệu

quan hệ (relational data model) hoặc mô hình hướng đối tượng (object-oriented data

model) như là mô hình dữ liệu chung trước khi xuất hiện ngôn ngữ đánh dấu mở rộng

XML (Extensible Markup Language).

Mô hình quan hệ thích hợp và thành công cho những chương trình ứng dụng giải

quyết dữ liệu có cấu trúc đơn giản (lý lịch cá nhân, tài khoản ngân hàng…) và không

thể áp dụng đối với dữ liệu có cấu trúc phức tạp (dữ liệu GIS, đa phương tiện…). Đối

với những dữ liệu phức tạp thì mô hình hướng đối tượng hiệu quả hơn do gần gủi với

các khái niệm tự nhiên của con người và đã được ứng dụng rộng rãi trong các lĩnh vực

phức tạp như: dữ liệu không gian, trí thông minh nhân tạo, công nghệ phần mềm, tương

tác giữa người và máy… Tuy nhiên, do còn hạn chế về mặt ngữ nghĩa liên quan đến

công nghệ tri thức, nên mô hình hướng đối tượng thường cắt gọt bớt và chỉ giới hạn một

số thông tin cần thiết để giải quyết những vấn đề nhất định và tỏ ra không hiệu quả cho

việc mô hình hóa những cấu trúc phức tạp.

Ngoài ra, sự xuất hiện của ngôn ngữ XML, do không phụ thuộc vào bất kỳ hệ

điều hành nào, đã giúp cho dữ liệu khác nhau từ nhiều nguồn có thể được kết hợp, trao

đổi và chia sẻ và tạo cơ hội cho việc tích hợp dữ liệu bị biệt. Qua phân tích các hệ thống

tích hợp dữ liệu khác nhau sử dụng công nghệ ngôn ngữ XML, tất cả các hệ thống này

Page 3: Ứng dụng ontology trong tích hợp dữ liệu đô thị

3

có thể giải quyết hiệu quả các sự khác biệt về mặt cú pháp (syntax), ngoại trừ sự dị biệt

về mặt ngữ giữa các nguồn dữ liệu khác nhau.

Trong khi đó, công cụ ontology dựa trên công nghệ tri thức, thường bao hàm

toàn bộ tri thức trong phạm vi miền (domain) nghiên cứu và nhấn mạnh đến sự toàn

vẹn của tri thức. Sự phát triển của công nghệ tri thức theo thời gian, mô hình dữ liệu

theo công nghệ ontology là một quá trình phát triển không ngừng. Đối với các loại dữ

liệu đô thị thời đại kỹ thuật số vô cùng phức tạp như đã đề cập ở phần I, thì với mô hình

dữ liệu theo công nghệ tri thức ontology mới có thể đảm bảo xây dựng mô hình đô thị

một cách trung thực và toàn vẹn dữ liệu nhất.

Mô hình ontology có quan hệ gần với mô hình hướng đối tượng, tuy nhiên hai

mô hình có bản chất khác nhau. Mô hình hướng đối tượng sử dụng ngông ngữ UML và

mô hình ontology sử dụng ngôn ngữ OWL (Web Ontology Langague). Mô hình hướng

đối tượng ở giai phát triển hệ thống phần mềm, còn mô hình ontology ở giai đoạn thiết

kế khái niệm tổng thể. Thông qua định nghĩa ontology, ta có thể mô tả một cách tường

minh, chính tắc các dung sai và hệ thống những điều không thể của thực thể và mối

quan hệ của chúng. Điều đó cung cấp phương pháp khả dĩ cho việc tích hợp về mặt ngữ

nghĩa.

Do đó, sử dụng công nghệ ontology để nghiên cứu về tích hợp dữ liệu có thể

giúp giải quyết tận gốc bài toán về sự dị biệt ngữ nghĩa và có thể thực hiện tích hợp

thông tin từ cấp cao nhất là thiết kế tổng thể. Phương pháp này cải thiện đáng kể hiệu

quả tích hợp dữ liệu và mở rộng quy mô chia sẻ dữ liệu. Xét trên quan điểm này, công

nghệ tri thức ontology có những ưu điểm mà những công nghệ khác không có [3].

II. MỘT SỐ ỨNG DỤNG THỰC TẾ Ở CÁC NƯỚC

1. Dự án thí điểm ứng dụng công nghệ tri thức trong quản lý đô thị ở Pháp

Năm 2002, dự án Towntology được khởi động qua sự hợp tác giữa hai phòng thí

nghiệm ở INSA – Lyon, gồm LIRIS chuyên về CNTT và EDU chuyên về quy hoạch

đô thị. Phòng thí nghiệm EDU phụ trách triển khai phát triển ontology, trong khi LIRIS

chịu trách nhiệm định nghĩa các cấu trúc dữ liệu và thiết kế các module phần mềm ứng

dụng. Dự án triển khai thí điểm 3 phần mềm ứng dụng công nghệ tri thức ontology trong

lĩnh vực quản lý đô thị, cụ thể về: quản lý lòng lề đường, quản lý giao thông đô thị và

quản lý chỉnh trang đô thị.

Với mục đích triển khai thí điểm để tham khảo và đúc kết kinh nghiệm, ba nghiên

cứu này được chọn sao cho công tác mô hình hóa dữ liệu từ đơn giản đến phức tạp. Ở

trường hợp thứ nhất khá đơn giản; trường hợp thứ hai phức tạp hơn, do các mối quan

hệ bị “mờ” (fuzzy) vì việc hiểu thế nào phụ thuộc vào ngữ cảnh; và ở trường hợp thứ

ba phức tạp nhất, do có sự xuất hiện của các yếu tố xã hội trong công tác chỉnh trang đô

thị.

Sơ đồ mô hình hóa các mối quan hệ giữa các đối tượng ở nghiên cứu thứ ba được

trình bày ở Hình 1 dưới đây. Chi tiết về dự án có thể tham khảo tại [4] và [5].

Page 4: Ứng dụng ontology trong tích hợp dữ liệu đô thị

4

Hình 1. Sơ đồ mô hình dữ liệu công tác chỉnh trang đô thị

2. Ứng dụng công nghệ tri thức để tích hợp dữ liệu đô thị phục vụ ra quyết

định quản lý.

a. Phần mềm ứng dụng SocialGlass.

Ứng dụng được xây dựng hoạt động trên môi trường web, áp dụng công nghệ tri

thức ontology, gồm có ba module chính:

- Bộ mô tả dữ liệu ứng dụng công nghệ tri thức ontology (OSMoSys-OntoPolis

Symantic Modeling System).

- Trình duyệt web ứng dụng công nghệ tri thức ontology (OSMoSys Browser).

- Công cụ biểu đồ công nghệ tri thức.

Ứng dụng này rất mạnh, với nhiều tính năng có thể tích hợp tất cả các loại dữ

liệu đô thị trên môi trường web, kể cả các loại dữ liệu từ các mạng xã hội nên có thể

tiếp nhận, thể hiện, xử lý và phân tích hầu như tức thời (real-time) các hệ thống dữ liệu

đô thị có quy mô lớn nhằm phục vụ kịp thời cho việc ra quyết định của lãnh đạo; điều

này đặc biệt có ý nghĩa khi tổ chức những sự kiện lớn. Chi tiết về ứng dụng này có thể

tham khảo tại [1] và [2].

b. Một số minh họa về tích hợp, xử lý dữ liệu đô thị phục vụ ra quyết định sử

dụng ứng dụng SocialGlass.

(1) Bản đồ thể hiện những cụm điểm động (dinamic point clusters) và hình mẫu

lộ trình (path patterns) từ dữ liệu mạng Twitter giúp đánh giá sự tập trung và hoạt động

của du khách nước ngoài tại những địa điểm nhất định và theo thời gian ở thành phố

Rotterdam (Hình 2).

Page 5: Ứng dụng ontology trong tích hợp dữ liệu đô thị

5

Hình 2. Bản đồ phân tích hoạt động của du khách nước ngoài

dựa trên dữ liệu Twitter ở thành phố Rotterdam.

(2) Bản đồ dạng gradient nhiệt (heat maps) thể hiện dữ liệu mạng xã hội Twitter giúp

đánh giá mật độ tập trung người trong sự kiện Amsterdam Light Festival từ 9pm đến 12am.

Thanh trượt theo thời gian có thể giúp phân tích dữ liệu tức thời hay vừa xảy ra (Hình 3).

Hình 3. Bản đồ phân tích mật độ trung đông người tại sự kiện

Amsterdam Light Festival từ 9 am đến 12pm.

Page 6: Ứng dụng ontology trong tích hợp dữ liệu đô thị

6

(3) Bản đồ tích hợp dữ liệu mạng xã hội Instagram cho phép tùy chọn phân tích

dữ liệu theo nhiều tiêu chí khác nhau (giới tính, phân bố tuổi, tỷ lệ tội phạm…) tại các

quận của thành phố Amsterdam (trường học, điểm tổ chức sự kiện; khu vực giải trí,

mua sắm…) (Hình 4).

Hình 4. Bản đồ thể hiện những địa điểm tập trung đông người và mật độ

hoạt động tương ứng ở các quận thuộc thành phố Amsterdam.

TÀI LIỆU THAM KHẢO

[1] Ontology-Based Data Integration from Heterogeneous Urban Systems: A Knowledge

Representation Framework for Smart Cities.

A. Psyllidis Chair of Hyperbody – Digitally-driven Architecture, Department of Architectural

Engineering & Technology. Faculty of Architecture and the Built Environment, Delft

University of Technology (TU Delft), 2628 BL, Delft, The Netherlands.

[2] A Platform for Urban Analytics and Semantic Data Integration in City Planning.

Achilleas Psyllidis, Alessandro Bozzon, Stefano Bocconi, and Christiaan Titos Bolivar

Delft University of Technology, Delft, The Netherlands.

[3] The study of Integration of Multi-Sources Heterogeneous Data Based On The Ontology.

Luo Jing, Dang An-rong, Mao Qi-zhi - School of Architecture, Tsinghua University,Beijing.

[4] Urban Ontologies: The Towntology Prototype towards Case Studies. Chatal Berdier and

Catherine Roussey – EDU laboratory, INSA Lyon.

[5] Workshop on Urban Ontologies – Robert Laurirni, INSA, Lyon.

Page 7: Ứng dụng ontology trong tích hợp dữ liệu đô thị

7

[6]. Thomas R. Gruber. A translation approach to portable ontology specifications. Knowledge

Acquisition, 5(2):199–220, 1993.

[7] Rudi Studer, V. Richard Benjamins, and Dieter Fensel. Knowledge engineering: Principles

and methods. Data & Knowledge Engineering, 25(1-2):161–197, 1998.

[8] Object-Oriented Modelling for GIS

Max J. Egenhofer – National Center for Gegraphic Information and Analysis, Department of

Surveying Engineering, University of Maine.

Andrew U. Frank - Department of Geo-Informatin, Technical University, Vienne, Austria.

[9] Modeling Spatial and Temporal Semantics in a Large Heterogeneous GIS Database

Environment - Sudha Ram Jinsoo Park Department of Management Information Systems

College of Business and Public Administration 430 McClelland Hall University of Arizona

Tucson, Problems with Current GIS Data Management.

[10] Framework for Semantic GIS Interoperability - Leonid Stoimenov, Slobodanka

Djordjevic-Kajan.