hỆ thỐng lƯu trỮ vÀ x lÝ dỮ liỆu gis tÍch hỢp gẮn vỚi … · 2020-05-19 · cơ...

HỆ THỐNG LƯU TRỮ VÀ XỬ

LÝ DỮ LIỆU GIS TÍCH HỢP

GẮN VỚI PHÂN TÍCH DỮ

LIỆU ĐA CHIỀU THÔNG

MINH TẠI TRUNG TÂM XỬ

LÝ DỮ LIỆU

DATA WAREHOUSE FRAMEWORK

Thành phố Hồ Chí Minh, Tháng 11 Năm 2019

2019

Hệ thống lưu trữ và xử lý dữ liệu GIS tích hợp gắn với phân tích

dữ liệu đa chiều thông minh tại Trung tâm xử lý dữ liệu 1

MỤC LỤC

1. GIỚI THIỆU ............................................................................................................. 2

1.1. GIS và dữ liệu lớn (Big Data) ............................................................................. 2

1.2. Các khái niệm và kiến trúc chính cho kho dữ liệu ............................................... 4

1.2.1. Kho dữ liệu .................................................................................................. 4

1.2.2. Cấu trúc Multidimensional data................................................................... 7

1.2.3. Data mart .................................................................................................... 9

1.2.4. Xử lý phân tích trực tuyến .......................................................................... 10

1.2.5. Khai phá dữ liệu ........................................................................................ 11

1.2.6. Kiến trúc kho dữ liệu ................................................................................. 12

1.3. Kho dữ liệu không gian .................................................................................... 14

1.3.1. Khối dữ liệu không gian ............................................................................. 16

1.3.2. Các chiều không gian ................................................................................ 17

1.3.3. Các phép đo không gian (Spatial measures) .............................................. 20

1.3.4. Kết chuyển dữ liệu không gian (Spatial ETL) ............................................. 21

1.3.5. Các toán tử OLAP không gian (Spatial OLAP operators) .......................... 22

1.4. Thời điểm thích hợp để Tích hợp GIS vào dữ liệu lớn ...................................... 22

2. Mô tả giao diện phần mềm ...................................................................................... 23

3. Mã nguồn................................................................................................................ 23

Page | 2

1. GIỚI THIỆU

1.1. GIS và dữ liệu lớn (Big Data)

Xu hướng dữ liệu lớn đã tác động mạnh mẽ đến mọi ngành công nghiệp, do đó, không

có gì ngạc nhiên khi dữ liệu lớn trong GIS có ý nghĩa quan trọng đối với cách chúng ta thu

nhận và tận dụng thông tin không gian. Khi nghiên cứu cách các tổ chức đang sử dụng

khoa học và công nghệ thông tin địa lý, một trong những chủ đề rõ ràng nhất là việc sử

dụng đang mở rộng nhanh chóng; trong khi đó, trong lịch sử, ứng dụng dữ liệu không gian

địa lý lớn nhất thường là các cơ quan chính phủ, nhưng giờ đây, việc áp dụng GIS đã trở

nên rộng rãi trong mọi lĩnh vực kinh doanh.

Sự hội tụ của GIS với dữ liệu lớn có nghĩa là các ứng dụng tiềm năng của cả hai sẽ trở

nên vô hạn. Chúng ta sẽ xem xét lý do tại sao sự quan tâm dường như tăng lên đáng kể và

cách các tổ chức khác nhau sử dụng dữ liệu lớn cùng với GIS.

Những năm gần đây đã có những thay đổi lớn trong thị trường Hệ thống Thông tin Địa

lý (GIS), từ các dịch vụ công nghệ có thể tương tác đến cơ sở hạ tầng dữ liệu không gian

quốc gia, dịch vụ lập bản đồ web và ứng dụng di động. Chẳng hạn, những công ty lớn sớm

gia nhập xu hướng như Google, Microsoft, Nokia hay TomTom đã tạo ra những cơ hội

mới to lớn và dữ liệu địa lý đã trở nên phổ biến. Hàng ngàn hệ thống được kích hoạt địa

lý mỗi tuần, bao gồm cả kho dữ liệu. Là một loại cơ sở dữ liệu đặc biệt, kho dữ liệu nhằm

mục đích cung cấp cho các tổ chức một cái nhìn tích hợp, đồng nhất về dữ liệu trong một

khoảng thời gian dài đáng kể để hỗ trợ cho việc ra quyết định. Dữ liệu, thông tin được tổ

chức liên quan đến vị trí địa lý, hành chính hoặc chính trị, khu vực hoặc mạng được tổ

chức theo thứ bậc. Kho dữ liệu được tách ra khỏi cơ sở dữ liệu giao dịch và được cấu trúc

để hỗ trợ cho phân tích dữ liệu. Chúng được xây dựng với mô hình quan hệ, hướng đối

tượng, đa chiều hoặc lai. Kho dữ liệu được thiết kế như một phần của khung công nghệ

tổng thể của tổ chức và chúng được triển khai theo các kiến trúc rất đa dạng đáp ứng các

bối cảnh khác nhau của người dùng. Trên thực tế, sự phát triển của kho dữ liệu không gian

phù hợp với xu hướng chung của dòng phát triển về CNTT.

Kho dữ liệu cung cấp các quan điểm thống nhất, toàn diện và tổng hợp rất cần thiết về

dữ liệu phân tán từ các cơ sở dữ liệu nghiệp vụ không đồng nhất trong những năm qua.

Các tổ chức đầu tư hàng triệu đô la để xây dựng các kho như vậy để cung cấp các công cụ

hiệu quả hỗ trợ cho việc ra quyết định chiến lược, như bảng điều khiển (dashboard), hệ

thống thông tin điều hành, khai thác dữ liệu, báo cáo và OLAP (Xử lý phân tích trực tuyến).

Trong thực tế, kho dữ liệu nổi lên như một giải pháp thống nhất cho một loạt các trường

hợp riêng lẻ ảnh hưởng đến khám phá tri thức:

Đầu tiên, các tổ chức lớn thường có một số cơ sở dữ liệu độc lập hoặc ứng dụng có thể

trùng lặp về nội dung. Thông thường, các hệ thống như vậy hoạt động đúng cho các quyết

định ở cấp hoạt động nghiệp vụ hàng ngày. Tuy nhiên, khi cần lấy thông tin tổng hợp hoặc

tóm tắt dữ liệu tích hợp từ các hệ thống khác nhau này, nó sẽ trở thành một quá trình dài

và khó khăn, làm chậm quá trình ra quyết định. Sau đó, nó xuất hiện dễ dàng hơn và nhanh

hơn nhiều để xử lý một bộ dữ liệu đồng nhất và duy nhất. Tuy nhiên, khi một số người ra

Page | 3

quyết định xây dựng cơ sở dữ liệu tóm tắt của riêng họ để đẩy nhanh quá trình, sự không

nhất quán giữa các cơ sở dữ liệu tóm tắt này nhanh chóng xuất hiện và công việc trích xuất

/ hợp nhất dữ liệu dư thừa phải được thực hiện. Trong những năm qua, điều này dẫn đến

một tình huống hỗn loạn không hiệu quả (Inmon, Richard và Hackathorn 1996).

Kế đến, kinh nghiệm trong quá khứ đã chỉ ra rằng việc tái cấu trúc hoàn toàn các hệ

thống hiện có để thay thế chúng bằng một hệ thống doanh nghiệp duy nhất thường dẫn đến

thất bại. Nó là quá đắt và khó khăn về chính trị. Sau đó, người ta phải tìm một giải pháp

có thể đối phó càng nhiều càng tốt với các hệ thống hiện có nhưng không tìm cách thay

thế chúng. Về vấn đề này, kho dữ liệu tăng giá trị cho các hệ thống cũ hơn là cố gắng thay

thế chúng vì chế độ xem thống nhất của kho được xây dựng từ một bản sao chính xác hoặc

được sửa đổi của dữ liệu kế thừa.

Thứ ba, cấu trúc dữ liệu được sử dụng ngày nay bởi hầu hết các giải pháp hỗ trợ quyết

định áp dụng, một phần hoặc hoàn toàn, mô hình đa chiều. Mô hình này rất khác với cấu

trúc quan hệ truyền thống, được chuẩn hóa như được sử dụng bởi hầu hết các hệ thống di

sản ở cấp độ hoạt động, theo định hướng giao dịch. Vấn đề là với các công nghệ giao dịch,

gần như không thể giữ thời gian phản hồi thỏa đáng cho cả hoạt động định hướng giao

dịch và phân tích trong một cơ sở dữ liệu duy nhất ngay khi cơ sở dữ liệu này trở nên rất

lớn. Sau đó, người ta phải tìm kiếm một giải pháp khác nhau cung cấp thời gian phản hồi

ngắn cho cả xử lý phân tích và xử lý giao dịch. Điều này đã dẫn đến khái niệm về kho dữ

liệu, đó là một cơ sở dữ liệu chỉ đọc bổ sung thường được điền với dữ liệu tổng hợp hoặc

tổng hợp theo định hướng phân tích thu được từ việc trích xuất, chuyển đổi và tải (ETL)

dữ liệu giao dịch chi tiết được nhập từ các hệ thống kế thừa hiện có . Sau quá trình ETL

và cấu trúc mới của dữ liệu kết quả, người ta thường chỉ tìm thấy dữ liệu tổng hợp trong

kho, không phải là di sản chi tiết đã nhập dữ liệu.

Thứ tư, việc ra quyết định chiến lược không chỉ đòi hỏi các mức tổng hợp và dữ liệu

tổng hợp khác nhau mà còn truy cập trực tiếp vào dữ liệu trong quá khứ

như dữ liệu hiện tại và tương lai (khi có thể) để phân tích xu hướng theo thời gian hoặc

dự đoán. Mô hình đa chiều thường được sử dụng trong kho dữ liệu hỗ trợ hiệu quả các nhu

cầu đó.

Cuối cùng, những người ra quyết định cũng hy vọng có câu trả lời nhanh, giao diện

người dùng đơn giản, mức độ linh hoạt cao hỗ trợ cho việc khám phá dữ liệu do người

dùng điều khiển ở các cấp độ tổng hợp khác nhau và các kỷ nguyên khác nhau, và cuối

cùng là khả năng phân tích tự động tìm kiếm các mẫu dữ liệu bất ngờ.

Nói cách khác, giải pháp cần thiết phải hỗ trợ khai thác kiến thức hữu ích từ dữ liệu chi

tiết phân tán trong các bộ dữ liệu không đồng nhất. Một mục tiêu như vậy có vẻ hợp lý

nếu chúng ta xem xét việc lưu trữ dữ liệu và khám phá kiến thức tự động khi theo dõi các

cơ sở dữ liệu truyền thống. Sự phát triển này là kết quả của mong muốn các tổ chức được

hưởng lợi nhiều hơn từ các khoản đầu tư lớn ban đầu được thực hiện thành các hệ thống

phòng ban khác biệt, độc lập và không đồng nhất. Khi hầu hết các nhu cầu vận hành được

đáp ứng bởi các hệ thống cũ, các tổ chức mong muốn xây dựng các quan điểm toàn diện

Page | 4

hơn hỗ trợ cho việc ra quyết định chiến lược (sự thâm nhập thường xuyên từ dưới lên của

các đổi mới). Trên thực tế, sự tiến hóa này rất giống với tình huống chứng kiến vào những

năm 1970, nơi các tổ chức phát triển từ việc quản lý các tệp phẳng khác nhau đến quản lý

cơ sở dữ liệu tích hợp.

Mục tiêu phần này là giới thiệu các khái niệm cơ bản về kho dữ liệu không gian.

1.2. Các khái niệm và kiến trúc chính cho kho dữ liệu

Phần này cung cấp tổng quan các khái niệm liên quan về cơ sở dữ liệu đa chiều, dữ

liệu, xử lý phân tích trực tuyến và khai thác dữ liệu. Các thuật ngữ chuyên ngành như hệ

thống dữ liệu di sản (Legacy Data), độ chi tiết, sự kiện, chiều phân tích (dimension), phép

đo (measure), lược đồ bông tuyết, lược đồ sao, lược đồ thiên hà, và kiến trúc tầng N cũng

được xác định.

1.2.1. Kho dữ liệu

Một nghịch lý thú vị trong thế giới cơ sở dữ liệu là các hệ thống được sử dụng cho các

hoạt động hàng ngày lưu trữ một lượng lớn thông tin chi tiết nhưng lại rất kém hiệu quả

trong việc hỗ trợ ra quyết định và khám phá kiến thức. Các hệ thống được sử dụng cho các

hoạt động hàng ngày thường hoạt động tốt để xử lý giao dịch trong đó dự phòng tối thiểu

và kiểm tra tính toàn vẹn tối đa là các khái niệm chính; hơn nữa, điều này thường diễn ra

trong bối cảnh các hệ thống xử lý số lượng lớn giao dịch liên quan đến khối dữ liệu chi tiết

nhỏ. Mặt khác, những người ra quyết định cần câu trả lời nhanh được tạo ra từ một vài dữ

liệu tổng hợp tóm tắt các đơn vị công việc lớn, một hệ thống giao dịch không đạt được

ngày nay với cơ sở dữ liệu lớn. Khó khăn này để kết hợp các cơ sở dữ liệu vận hành và hỗ

trợ quyết định trong một hệ thống đã dẫn đến cách tiếp cận hệ thống kép điển hình của kho

dữ liệu.

Mặc dù các ý tưởng cơ bản không phải là mới, nhưng thuật ngữ kho dữ liệu đã được

bắt nguồn từ những năm đầu thập niên 90 và nhanh chóng trở thành một khái niệm rõ ràng

được cộng đồng thừa nhận. Nó đã được định nghĩa rất giống nhau bởi những người tiên

phong như Brackett (1996), Gill và Rao (1996), Inmon, Richard và Hackathorn (1996) và

Poe (1995). Nói chung, kho dữ liệu là một bộ sưu tập dữ liệu theo định hướng doanh

nghiệp, tích hợp, không biến động, chỉ đọc được nhập từ các nguồn không đồng nhất và

được lưu trữ ở nhiều cấp độ chi tiết để hỗ trợ cho việc ra quyết định. Vì định nghĩa này đã

được giải thích và thực hiện một cách lỏng lẻo trong một số dự án và do đó, không phải

lúc nào cũng mang lại lợi nhuận hứa hẹn cho các khoản đầu tư, điều rất quan trọng là phải

giải thích mọi đặc điểm chính:

Định hướng doanh nghiệp: Một trong những mục tiêu của kho dữ liệu là trở thành

nguồn duy nhất và đồng nhất cho dữ liệu được quan tâm để đưa ra quyết định chiến lược

cấp doanh nghiệp. Thông thường, không có cơ sở dữ liệu đồng nhất như vậy tồn tại do sự

phát triển hệ thống có xu hướng xảy ra theo cách từ dưới lên trong các tổ chức, dẫn đến

một số hệ thống chuyên biệt khác nhau. Tương tự, nguồn đơn lẻ như vậy không tồn tại do

dữ liệu được lưu trữ trong các hệ điều hành mô tả các giao dịch chi tiết (ví dụ: lượng tiền

rút của một người trong một ATM nhất định tại một thời điểm chính xác) trong khi đưa ra

Page | 5

quyết định chiến lược cấp doanh nghiệp yêu cầu dữ liệu tóm tắt ( ví dụ: tăng giao dịch tiền

tệ của khách hàng của chúng tôi trong tất cả các máy ATM của tỉnh trong tháng trước),

dẫn đến việc xử lý tốn kém và mất thời gian để có được thông tin toàn diện về hoạt động

của doanh nghiệp.

Tích hợp: Đặc tính quan trọng này ngụ ý rằng dữ liệu được nhập từ các hệ thống nguồn

khác nhau phải trải qua một loạt các biến đổi vì vậy rằng chúng phát triển từ ngữ nghĩa

không đồng nhất, các ràng buộc, định dạng và mã hóa thành một tập hợp các kết quả đồng

nhất được lưu trữ trong kho. Đây là phần khó khăn và tốn thời gian nhất trong việc xây

dựng nhà kho. Trong một miền ứng dụng được quản lý tốt (ví dụ: kế toán hoặc tài chính),

đây hoàn toàn là một thành tựu kỹ thuật. Tuy nhiên, trong các lĩnh vực hoạt động khác, sự

không tương thích nghiêm trọng có thể tồn tại giữa các nguồn khác nhau hoặc trong cùng

một nguồn trong vài năm do các diễn biến ngữ nghĩa, khiến không thể tích hợp dữ liệu

nhất định hoặc tạo ra kết quả chất lượng cao. Để tạo điều kiện cho quá trình tích hợp này,

các công nghệ kho bãi cung cấp khả năng ETL. Các chức năng ETL này bao gồm hợp nhất

/ phân lớp ngữ nghĩa, khớp nhận dạng, định dạng lại trường, hợp nhất / tách tệp, hợp nhất

/ tách trường, mã hóa giá trị, hiệu chỉnh ràng buộc, thay thế giá trị thiếu, thay đổi thang đo

và thay đổi đơn vị, lọc cập nhật, tính toán giá trị thích nghi, phát hiện không lường trước

hoặc các giá trị đặc biệt, làm mịn dữ liệu nhiễu, loại bỏ các ngoại lệ và áp dụng các ràng

buộc toàn vẹn để giải quyết các mâu thuẫn. Các khả năng ETL này đôi khi được gọi là làm

sạch dữ liệu, lọc dữ liệu, hợp nhất dữ liệu hoặc tích hợp dữ liệu. Tuân thủ các tiêu chuẩn

và các khái niệm khả năng tương tác giúp giảm thiểu vấn đề tích hợp. Quan tâm đặc biệt

là quá trình được gọi là quá trình giảm dữ liệu của Cameron, nơi người ta tạo ra một khối

lượng dữ liệu đại diện giảm cung cấp kết quả phân tích tương tự hoặc tương tự so với một

kho hoàn chỉnh sẽ cung cấp (Han và Kamber, 2006).

Không biến động: Các hệ thống nguồn giao dịch thường chỉ chứa dữ liệu hiện tại hoặc

gần hiện tại do dữ liệu lỗi thời của chúng được thay thế bằng các giá trị mới và sau đó bị

hủy hoặc lưu trữ. Mặt khác, các kho lưu giữ những dữ liệu lịch sử này (còn gọi là dữ liệu

biến đổi thời gian) để cho phép phân tích và dự đoán xu hướng theo thời gian (một thành

phần quan trọng của việc ra quyết định chiến lược). Do đó, dữ liệu kế thừa được cho là

không ổn định do chúng được cập nhật liên tục (tức là, được thay thế bởi hầu hết các giá

trị gần đây) trong khi, mặt khác, dữ liệu kho không biến động, tức là chúng không bị thay

thế bởi các giá trị mới; chúng được giữ trong một thời gian dài cùng với các giá trị mới.

Tuy nhiên, để chính xác hơn, người ta có thể chỉ định về dữ liệu không bay hơi mà, một

khi đã chèn, [nó] không thể thay đổi, mặc dù nó có thể bị xóa xóa (Ngày 2000). Lý do xóa

dữ liệu thường không có tính chất giao dịch mà có tính chất định hướng doanh nghiệp,

chẳng hạn như quyết định chỉ giữ lại dữ liệu của năm năm trước, để xóa dữ liệu của một

bộ phận đã được doanh nghiệp bán, để xóa dữ liệu của một khu vực trên hành tinh nơi

doanh nghiệp đã ngừng kinh doanh, v.v. Do đó, một kho dữ liệu có thể tăng chiều phân

tích (dimension) (hoặc giảm trong những dịp hiếm hoi) nhưng không bao giờ được viết

lại.

Page | 6

Chỉ đọc: Kho có thể nhập dữ liệu chi tiết cần thiết nhưng chúng không thể thay đổi

trạng thái của cơ sở dữ liệu nguồn, đảm bảo rằng dữ liệu gốc luôn nằm trong các nguồn.

Yêu cầu như vậy là cần thiết cho các mối quan tâm kỹ thuật (ví dụ: để tránh cập nhật các

vòng lặp và sự không nhất quán) nhưng bắt buộc phải giảm thiểu các mối quan tâm của tổ

chức (chẳng hạn như dữ liệu gốc ở đâu? chúng ta vẫn cần hệ thống kế thừa chứ? Do đó,

theo định nghĩa, kho dữ liệu không được phép ghi lại vào các hệ thống cũ. Tuy nhiên, mặc

dù kho dữ liệu về mặt khái niệm không có nghĩa là hoạt động như một hệ thống OLTP (Hệ

thống xử lý giao dịch trực tuyến hướng đến việc nhập, lưu trữ, cập nhật, kiểm tra tính toàn

vẹn, bảo mật và truy vấn dữ liệu đơn giản), đôi khi nó được xây dựng để cho phép nhập

trực tiếp dữ liệu mới có giá trị cao cho việc ra quyết định chiến lược nhưng không tồn tại

trong các hệ thống cũ.

Nguồn không đồng nhất: Như đã đề cập trước đây, kho dữ liệu là một hệ thống mới,

bổ sung không nhằm mục đích thay thế, theo cách tiếp cận tập trung, các hệ thống vận

hành hiện có (thường được gọi là hệ thống kế thừa của Hồi giáo). Trên thực tế, việc triển

khai kho dữ liệu là một nỗ lực để có được thông tin cấp doanh nghiệp trong khi giảm thiểu

tác động lên các hệ thống hiện có. Do đó, kho dữ liệu phải lấy dữ liệu từ nhiều nguồn khác

nhau và xoa bóp những dữ liệu này cho đến khi chúng cung cấp thông tin cấp cao hơn

mong muốn. Thông thường, kho dữ liệu nhập dữ liệu thô từ các hệ thống cũ của tổ chức,

nhưng không phải giới hạn ở các hệ thống nội bộ này. Trong mọi trường hợp, việc thu thập

siêu dữ liệu (nghĩa là dữ liệu mô tả dữ liệu tích hợp và quy trình tích hợp) là cần thiết để

cung cấp kiến thức cần thiết về dòng dõi và chất lượng của kết quả. Gần đây, chất lượng

của dữ liệu phân tích cấp cao được sản xuất đã trở thành một trong những mối quan tâm

chính của người dùng kho; do đó, siêu dữ liệu đã trở nên quan trọng hơn và các dự án gần

đây đã đưa ra các phương pháp quản lý rủi ro trong phương pháp thiết kế kho dữ liệu cũng

như cảnh báo người dùng nhạy cảm theo ngữ cảnh (xem chương được viết bởi Gervais và

cộng sự trong cuốn sách này).

Nhiều cấp độ chi tiết (còn được gọi là mức độ trừu tượng): Người ra quyết định cần

có được bức tranh toàn diện, nhưng khi thấy xu hướng hoặc biến thể bất ngờ, họ cần đi

sâu vào để biết thêm chi tiết để khám phá lý do của những biến thể này. Ví dụ: khi doanh

số giảm trong công ty, người ta phải tìm xem đó là xu hướng chung cho tất cả các loại sản

phẩm, cho tất cả các khu vực và cho tất cả các cửa hàng hay nếu đây là cho một khu vực

nhất định, cho một cửa hàng nhất định hoặc cho một cửa hàng cụ thể loại sản phẩm (ví dụ,

thiết bị thể thao). Nếu nó dành cho một danh mục cụ thể như thiết bị thể thao, người ta có

thể muốn đào sâu hơn và tìm ra rằng nó dành cho một thương hiệu sản phẩm nhất định kể

từ một tuần cụ thể. Do đó, để cung cấp câu trả lời nhanh cho các câu hỏi đa cấp như vậy,

kho phải tổng hợp và tóm tắt dữ liệu theo nhãn hiệu, danh mục, cửa hàng, khu vực, thời

kỳ, v.v. ở các cấp độ tổng quát khác nhau. Một hệ thống phân cấp như vậy có thể là cửa

hàng-thành phố-quốc gia, một hệ thống khác có thể là ngày-tuần-quý-năm với hệ thống

phân cấp song song ngày-tháng-năm. Thuật ngữ của Gran granityity thường được sử dụng

để chỉ khái niệm phân cấp này. Ví dụ, doanh số trung bình của nhân viên bán hàng cá nhân

là một tập hợp tốt hơn; doanh số trung bình theo bộ phận là thô hơn; và doanh số của toàn

công ty là thô nhất (nghĩa là, một số duy nhất). Độ chi tiết tốt nhất đề cập đến mức tổng

Page | 7

hợp dữ liệu thấp nhất sẽ được lưu trữ trong cơ sở dữ liệu (Ngày 2000) hoặc nói cách khác,

mức độ thông tin chi tiết nhất. Điều này có thể tương ứng với dữ liệu nguồn đã nhập hoặc

ở mức tổng quát hơn nếu dữ liệu nguồn chỉ phục vụ để tính toán tổng hợp và tóm tắt cấp

trên trước khi bị loại bỏ. Ngược lại, khi nói về các mức tóm tắt nhất, đôi khi người dùng

nói về các chỉ số của Cameron, đặc biệt là khi chất lượng của dữ liệu nguồn thấp. Các chỉ

số như vậy cung cấp một cái nhìn gần đúng về bức tranh toàn diện thường đủ cho các mục

đích ra quyết định.

Hỗ trợ ra quyết định: Đó là tổng của tất cả các đặc điểm trước đó làm cho kho dữ liệu

trở thành nguồn thông tin tốt nhất để hỗ trợ cho việc ra quyết định. Kho dữ liệu cung cấp

dữ liệu cần thiết được lưu trữ trong một cấu trúc được xây dựng đặc biệt để trả lời các truy

vấn toàn diện, đồng nhất, đa cấp và đa kỷ nguyên từ những người ra quyết định. Điều này

cho phép sử dụng các công cụ hỗ trợ quyết định mới và các loại truy vấn, thăm dò và phân

tích dữ liệu mới, quá tốn thời gian trong quá khứ.

Các đặc điểm của kho dữ liệu, so với các hệ thống giao dịch thông thường được trình

bày trong Bảng sau:

Ứng dụng truyền thống Kho dữ liệu

Được xây dựng cho các giao dịch,

hoạt động lặp đi lặp lại hàng ngày

Được xây dựng cho các hoạt động

phân tích, quyết định và thăm dò.

Được xây dựng cho số lượng lớn

các truy vấn đơn giản sử dụng một

vài bản ghi

Được xây dựng cho các truy vấn

phức tạp, ad-hoc sử dụng hàng triệu

bản ghi

o Nguồn dữ liệu gốc với các bản

cập nhật liên tục

o Dữ liệu chi tiết

o Hướng ứng dụng

o Dữ liệu hiện tại

o Cấu trúc dữ liệu được chuẩn

hóa và được xây dựng với mô

hình / khái niệm giao dịch

o Tập trung vào hiệu suất cao

các giao dịch

o Bản sao chính xác hoặc được xử

lý của dữ liệu gốc, ở chế độ chỉ

đọc

o Dữ liệu tổng hợp / tóm tắt

o Hướng doanh nghiệp

o Dữ liệu hiện tại + lịch sử

o Cấu trúc dữ liệu phi chuẩn và

thường được xây dựng với mô

hình / khái niệm đa chiều

o Tập trung vào hiệu suất xử lý

phân tích

1.2.2. Cấu trúc Multidimensional data

Kho dữ liệu thường được cấu trúc bằng cách sử dụng mô hình đa chiều.

Cấu trúc như vậy được ưa thích bởi các công cụ hỗ trợ quyết định đào sâu vào kho dữ

liệu (ví dụ: OLAP, bảng điều khiển và công cụ Khai thác dữ liệu). Mô hình đa chiều được

xây dựng để tạo điều kiện thuận lợi cho việc điều hướng tương tác trong cơ sở dữ liệu, đặc

biệt là trong các mức độ chi tiết khác nhau của nó và để có được thông tin giữa các tab liên

quan đến một số chủ đề phân tích (được gọi là chiều phân tích (dimension)) ở nhiều cấp

Page | 8

độ chi tiết. Nó cũng làm như vậy với các chức năng đơn giản như truy sâu xuống (nghĩa

là đi đến độ chi tiết mịn hơn trong một chủ đề), khoan lên (nghĩa là đi đến độ chi tiết thô

hơn) và đi ngang (nghĩa là hiển thị một thông tin khác ở cùng mức độ chi tiết ). Thuật ngữ

kết quả đa chiều từ phần mở rộng đến chiều phân tích (dimension) N của biểu diễn ma trận

thông thường trong đó biến phụ thuộc là một ô trong không gian 2 chiều được xác định

bởi hai trục, một cho mỗi biến độc lập (ví dụ: mua có thể là các ô trong khi các quốc gia

và năm trục, đưa ra ngay lập tức trong ma trận tất cả các giao dịch mua mỗi quốc gia mỗi

năm). Trong tài liệu, cơ sở dữ liệu đa chiều thường được biểu thị bằng một khối có ba trục

(vì không thể biểu diễn nhiều chiều hơn) và do đó, cơ sở dữ liệu đa chiều thường được gọi

là khối dữ liệu (hoặc hypercube khi N> 3).

Các mô hình dữ liệu của mô hình đa chiều dựa trên ba khái niệm cơ bản: sự kiện, chiều

phân tích (dimension) và biện pháp (Rafanelli, 2003, Kimball và Ross 2002). Một thước

đo (ví dụ: tổng chi phí, số lượng mặt hàng) là thuộc tính của một thực tế (ví dụ: doanh số),

đại diện cho trạng thái của tình huống liên quan đến các chủ đề hoặc chiều phân tích

(dimension) quan tâm (ví dụ: vùng, ngày, sản phẩm). Do đó, người ta có thể xem xét các

phép đo (measure) thực tế cho sự kết hợp các chiều phân tích (dimension) nhất định (ví

dụ: doanh số 123.244 mặt hàng và $ 25000000 cho Canada vào năm 2006 cho thiết bị thể

thao) và nói rằng thước đo là biến phụ thuộc trong khi chiều phân tích (dimension) là biến

độc lập . Cách tiếp cận như vậy dường như tương thích nhận thức hơn với nhận thức của

người dùng, do đó tạo điều kiện cho việc khám phá cơ sở dữ liệu (nghĩa là chọn các biến

độc lập trước, sau đó xem biến phụ thuộc là gì). Lý do chính tại sao các hệ thống đa chiều

xuất hiện trực quan là vì họ kinh doanh theo cách chúng ta làm. (Thomsen 2002). Người

ta có thể chỉ cần định nghĩa một truy vấn đa chiều bằng cách nói rằng tôi muốn biết điều

này (một biện pháp) liên quan đến điều đó (các yếu tố chiều phân tích (dimension)).

Mỗi chiều có thành viên; mỗi thành viên đại diện cho một vị trí trên trục thứ nguyên

(ví dụ: tháng 1, tháng 2, tháng 3, ...). Các thành viên của một chiều duy nhất có thể được

cấu trúc theo cách phân cấp (ví dụ: năm được chia thành các phần tư, các phần được chia

thành tháng, tháng được chia thành tuần, tuần được chia thành ngày), tạo ra mức độ chi

tiết khác nhau của thông tin. Hệ thống phân cấp thay thế cũng có thể được xác định cho

cùng một chiều (ví dụ: năm-tháng-ngày so với năm-quý-tuần). Một hệ thống phân cấp

trong đó mỗi thành viên con chỉ có một thành viên cha mẹ được gọi là hệ thống phân cấp

nghiêm ngặt. Một hệ thống phân cấp không nghiêm ngặt có mối quan hệ M: N giữa các

thành viên cha mẹ và các thành viên con, dẫn đến các chiến lược thực hiện tạo ra các ràng

buộc tóm tắt. Một hệ thống phân cấp có thể được cân bằng hoặc không; nó được cân bằng

khi số lượng cấp độ tổng hợp vẫn giữ nguyên cho dù các thành viên được chọn trong thứ

nguyên.

Một mô hình đa chiều như vậy có thể được mô hình hóa bằng ba cấu trúc dữ liệu: Lược

đồ hình sao, Lược đồ bông tuyết và Chòm sao thực tế. Lược đồ hình sao chứa một bảng

thực tế trung tâm được tạo từ các phép đo (measure) và một khóa ngoại cho mỗi thứ nguyên

để liên kết thực tế với thành viên của thứ nguyên (xem sử dụng khóa chính của bảng thứ

nguyên) được lưu trữ trong một bảng cho mỗi thứ nguyên, độc lập với cấp bậc của một

Page | 9

thành viên; lược đồ Bông tuyết chứa một bảng thực tế trung tâm tương tự như bảng thực

tế Sao, nhưng các khóa ngoại của bảng thực tế được liên kết với chiều phân tích

(dimension) chuẩn hóa (thông thường, một bảng cho mỗi cấp độ phân cấp); trong khi

Chòm sao thực tế chứa một tập hợp các bảng thực tế, được kết nối bởi một số bảng thứ

nguyên được chia sẻ. Không có gì lạ khi thấy các lược đồ lai trong đó một số chiều phân

tích (dimension) được chuẩn hóa và các chiều phân tích (dimension) khác thì không.

Vì kho dữ liệu có thể bao gồm một số lượng chiều phân tích (dimension) tốt và mỗi

chiều phân tích (dimension) có thể có nhiều cấp độ, nên có thể có một số lượng lớn kết

hợp chiều phân tích (dimension) và cấp độ, mỗi chiều tạo thành một khối hình khối đa

chiều tổng hợp (được gọi là khối lập phương). Ví dụ: cơ sở dữ liệu có 10 chiều phân tích

(dimension), mỗi chiều phân tích (dimension) có 5 mức độ trừu tượng sẽ có 610 khối. Do

không gian lưu trữ hạn chế, thông thường, chỉ một bộ khối lập phương cấp cao hơn được

chọn sẽ được tính toán như được hiển thị bởi Harinarayan et al. (1996). Đã có nhiều

phương pháp được phát triển để tính toán hiệu quả các cốt liệu đa cấp đa chiều, như

Agarwal et al. (1996), và Beyer và Ramakrish Nam (1999). Hơn nữa, nếu cơ sở dữ liệu

chứa một số lượng lớn chiều phân tích (dimension), rất khó để tính toán trước một số lượng

đáng kể các khối lập phương do số lượng khối nổ.

Các phương pháp đã được phát triển cho OLAP chiều cao hiệu quả, chẳng hạn như Li

et al. (2004). Hơn nữa, một số cấu trúc lập chỉ mục phổ biến, bao gồm cấu trúc chỉ mục

bitmap và cấu trúc chỉ mục đã được phát triển để truy cập nhanh vào cơ sở dữ liệu đa chiều,

như thể hiện trong Chaudhuri và Dayal (1997). Tổng quan về các phương pháp tính toán

cho cơ sở dữ liệu đa chiều được đưa ra bởi Han và Kamber (2006).

1.2.3. Data mart

Người ta thường định nghĩa mart dữ liệu là một kho nhỏ chuyên biệt, hướng đến chủ

đề, tổng hợp cao. Nó bị hạn chế về phạm vi hơn kho và có thể được xem như là một kho

phụ của bộ phận hoặc mục đích đặc biệt thường xử lý độ chi tiết thô hơn. Thông thường,

việc thiết kế các bảng dữ liệu phụ thuộc nhiều hơn vào nhu cầu phân tích của người dùng

trong khi kho dữ liệu phụ thuộc nhiều hơn vào dữ liệu có sẵn. Một số dữ liệu có thể được

tạo ra trong một doanh nghiệp. Hầu hết thời gian, nó được xây dựng từ một tập hợp con

của kho dữ liệu, nhưng nó cũng có thể được xây dựng từ cơ sở dữ liệu giao dịch toàn doanh

nghiệp hoặc từ một số hệ thống cũ. Trái ngược với kho dữ liệu, siêu thị dữ liệu không

nhằm mục đích cung cấp bức tranh toàn diện về một tổ chức. Trong cùng một tổ chức,

người ta thường thấy nội dung của một số dữ liệu chồng chéo. Trong thực tế, khi một tổ

chức xây dựng một số dữ liệu mà không có kho dữ liệu, sẽ có nguy cơ xảy ra mâu thuẫn

giữa các dữ liệu và lặp lại, ở cấp độ phân tích, các vấn đề hỗn loạn nổi tiếng do các cơ sở

dữ liệu silo ở cấp độ giao dịch. Hình 3.1 minh họa sự khác biệt giữa các hệ thống cũ, kho

dữ liệu và dữ liệu trong khi Bảng 3.2 nêu bật sự khác biệt giữa kho dữ liệu và dữ liệu.

Kho dữ liệu Data Mart

Page | 10

Được xây dựng để phân tích toàn

diện

Được xây dựng để phân tích cụ

thể hơn.

Dữ liệu tổng hợp.

Hướng đến toàn tổ chức/doanh

nghiệp

Chỉ MỘT cho toàn tổ chức/Doanh

nghiệp

Thông thường tổ chức cấu trúc dữ

liệu đa chiều

CSDL rất lớn

Dữ liệu tập hợp từ các hệ thống

nghiệp vụ

Dữ liệu tổng hợp cao

Hướng đến một đối tượng cụ thể

NHIỀU bên trong một tổ chức

Luôn luôn tổ chức cấu trúc dữ

liệu đa chiều

CSDL lớn

Trích xuất dữ liệu từ các hệ

thống kho

Trước những thách thức lớn về kỹ thuật và tổ chức liên quan đến việc xây dựng kho

toàn doanh nghiệp, người ta có thể bị cám dỗ xây dựng các dữ liệu cụ thể theo chủ đề mà

không cần xây dựng kho dữ liệu. Giải pháp này liên quan đến các khoản đầu tư nhỏ hơn,

lợi tức đầu tư nhanh hơn và đấu tranh chính trị tối thiểu. Nhưng, có một rủi ro dài hạn khi

thấy một số dữ liệu xuất hiện trong toàn tổ chức và vẫn không có giải pháp nào để có được

bức tranh tổ chức toàn diện. Tuy nhiên, sự thay thế này thể hiện một số lợi thế ngắn hạn.

Vì vậy, nó thường được thông qua và đôi khi có thể là sự thay thế khả dĩ duy nhất.

1.2.4. Xử lý phân tích trực tuyến

Xử lý phân tích trực tuyến (OLAP) là một loại công cụ hỗ trợ quyết định rất phổ biến,

thường được sử dụng làm máy khách của kho dữ liệu và dữ liệu. OLAP cung cấp các chức

năng để khám phá và phân tích dữ liệu ad hoc nhanh chóng, tương tác và dễ dàng với giao

diện người dùng đa chiều. Do đó, các chức năng OLAP bao gồm các chức năng truy sâu,

truy vấn ngược và truy vấn ngược được xác định trước đó cũng như các chức năng điều

hướng khác như lọc, cắt, thái hạt lựu và xoay vòng. (xem Hội đồng OLAP 1995, Thomsen

2002, Wrembel và Koncilia 2006). Người dùng cũng có thể được trợ giúp bởi các chức

năng nâng cao hơn như tập trung vào các ngoại lệ hoặc vị trí cần chú ý đặc biệt bằng các

phương pháp đánh dấu các ô và đường dẫn thú vị. Loại khám phá dữ liệu theo định hướng

khám phá như vậy đã được nghiên cứu bởi Sarawagi, Agrawal và Megiddo (1998). Ngoài

ra, cơ sở dữ liệu đa tính năng kết hợp nhiều tập hợp phức tạp có thể được xây dựng, như

thể hiện bởi Ross, Srivastava và Chatziantoniou (1998), để tiếp tục khai thác dữ liệu và

khai thác dữ liệu.

Công nghệ OLAP cung cấp giao diện người dùng cấp cao áp dụng mô hình đa chiều

không chỉ cho việc lựa chọn chiều phân tích (dimension) và cấp độ trong các khối dữ liệu,

mà còn cho cách chúng ta điều hướng trong các hình thức trực quan hóa dữ liệu khác nhau

(Fayyad, Grinstein và Wierse 2001). Các khả năng hiển thị bao gồm các bảng 2D hoặc 3D,

biểu đồ hình tròn, biểu đồ, biểu đồ thanh, sơ đồ phân tán, sơ đồ lượng tử và tọa độ song

song nơi người dùng có thể điều hướng (ví dụ: truy sâu vào thanh của biểu đồ thanh).

Có một số khả năng để xây dựng các hệ thống có khả năng OLAP. Mỗi máy khách

OLAP có thể được đọc trực tiếp kho và được sử dụng như một công cụ khám phá dữ liệu

Page | 11

đơn giản hoặc nó có thể có máy chủ dữ liệu riêng. Một máy chủ OLAP như vậy có thể cấu

trúc dữ liệu theo cách tiếp cận quan hệ, cách tiếp cận đa chiều hoặc kết hợp cả hai (dựa

trên mức độ chi tiết và tần suất sử dụng chiều phân tích (dimension)) (Imhoff, Galemmo

và Geiger 2003). Sau đó, chúng lần lượt được gọi là ROLAP (OLAP quan hệ), MOLAP

(OLAP đa chiều) và HOLAP (OLAP lai) mặc dù hầu hết người dùng không phải quan tâm

đến sự khác biệt đó vì chúng ở các kỹ thuật triển khai cơ bản Ngoài ra, người ta có thể sử

dụng các máy chủ SQL chuyên dụng hỗ trợ Các truy vấn SQL trên các lược đồ sao / bông

tuyết / chòm sao (Han và Kamber 2006).

Người ta cũng có thể bắt gặp cái gọi là các ứng dụng của Dash Dashboard với các khả

năng tương tự như OLAP. Mặc dù bảng điều khiển có thể sử dụng các thành phần OLAP,

nhưng nó không bị hạn chế để trình bày dữ liệu tổng hợp từ khối dữ liệu, nó cũng có thể

hiển thị dữ liệu từ các nguồn giao dịch (ví dụ: từ hệ thống cũ), RSS web, video trực tuyến,

hệ thống ERP, gói thống kê tinh vi , v.v. Bảng điều khiển bao bọc các loại dữ liệu khác

nhau từ các nguồn khác nhau và trình bày chúng trong các ảnh toàn cảnh rất đơn giản,

được xác định trước và các chuỗi hoạt động lặp đi lặp lại ngắn để truy cập, ngày này qua

ngày khác, cùng một dữ liệu hỗ trợ quyết định. Bị ảnh hưởng mạnh mẽ bởi các chiến lược

quản lý hiệu suất như bảng điểm cân bằng, chúng thường được sử dụng bởi những người

ra quyết định chiến lược cấp cao, những người dựa vào các chỉ số đặc trưng cho các hiện

tượng được phân tích. Dễ sử dụng hơn OLAP, bảng điều khiển không có nghĩa là linh hoạt

hoặc mạnh mẽ như OLAP vì chúng hỗ trợ các quy trình quyết định có cấu trúc và dự đoán

nhiều hơn. Chúng rất phổ biến cho các nhà quản lý hàng đầu nhưng phụ thuộc nhiều vào

sự lựa chọn đúng đắn của các chỉ số hiệu suất.

1.2.5. Khai phá dữ liệu

Một ứng dụng khách phổ biến khác của máy chủ kho dữ liệu là một danh mục các gói

phần mềm hoặc các hàm tích hợp có tên là Khai thác dữ liệu. Danh mục công cụ khám phá

tri thức này sử dụng các kỹ thuật khác nhau như mạng thần kinh, cây quyết định, thuật

toán di truyền, quy tắc và người hàng xóm gần nhất để tự động khám phá các mô hình

hoặc xu hướng ẩn trong cơ sở dữ liệu lớn và đưa ra dự đoán (xem Berson & Smith 1997

hoặc Han & Kamber 2006 cho một mô tả các kỹ thuật phổ biến). Khai thác dữ liệu thực

sự tỏa sáng nơi con người sẽ quá tẻ nhạt và phức tạp khi sử dụng OLAP để khám phá dữ

liệu thủ công hoặc khi có khả năng khám phá các mẫu rất bất ngờ. Trên thực tế, chúng tôi

sử dụng khai thác dữ liệu để khai thác triệt để sức mạnh của máy tính và các thuật toán

chuyên dụng để giúp chúng tôi khám phá các mẫu hoặc xu hướng có ý nghĩa phải mất

hàng tháng để tìm hoặc chúng tôi sẽ không bao giờ tìm thấy vì khối lượng dữ liệu lớn và

sự phức tạp của các quy tắc chi phối các mối tương quan của chúng. Khai thác dữ liệu hỗ

trợ phát hiện các liên kết, phân loại hoặc mô hình phân tích mới bằng cách trình bày kết

quả với các giá trị số hoặc công cụ trực quan. Do đó, ranh giới giữa OLAP và Khai thác

dữ liệu có vẻ mờ nhạt trong một số dịch vụ công nghệ, nhưng người ta phải nhớ rằng Khai

thác dữ liệu được điều khiển bằng thuật toán trong khi OLAP được điều khiển bởi người

dùng và chúng là các công cụ bổ trợ. Kim (1997) so sánh OLTP với DSS, OLAP và Khai

Page | 12

thác dữ liệu. Một hướng tốt để kết hợp các điểm mạnh của OLAP và Khai thác dữ liệu là

nghiên cứu các phương pháp OLAM (Khai thác phân tích trực tuyến) trong đó việc khai

thác có thể được thực hiện theo cách OLAP, nghĩa là khám phá kiến thức liên quan đến

không gian khối đa chiều bằng cách khoan, cắt, xoay, và các chức năng khám phá dữ liệu

do người dùng điều khiển khác (Han và Kamber 2006).

1.2.6. Kiến trúc kho dữ liệu

Kho dữ liệu có thể được thực hiện với các kiến trúc khác nhau tùy thuộc vào nhu cầu

và ràng buộc về công nghệ và tổ chức (Kimball và Ross 2002). Một trong những điển hình

nhất cũng là đơn giản nhất, được gọi là kiến trúc tổng hợp (Weldon 1997) hoặc kiến trúc

chung (Poe 1995). Nó được trình bày trong Hình 3.2. Trong một kiến trúc như vậy, kho

nhập và tích hợp dữ liệu mong muốn trực tiếp từ các hệ thống nguồn không đồng nhất, lưu

trữ dữ liệu tổng hợp / tổng hợp toàn doanh nghiệp trong máy chủ của mình và cho phép

khách hàng truy cập các dữ liệu này bằng gói phần mềm khám phá kiến thức của riêng họ

(ví dụ: OLAP, khai thác dữ liệu, trình tạo truy vấn, trình tạo báo cáo, bảng điều khiển).

Kiến trúc máy khách-máy chủ hai tầng này là kiến trúc tập trung nhất.

Có một sự thay thế thường được sử dụng gọi là kiến trúc liên kết. Đây là một giải pháp

phân cấp một phần và được trình bày trong Hình 3.3. Trong ví dụ này, dữ liệu được tổng

hợp trong kho và các tập hợp khác (ở cùng mức hoặc mức độ chi tiết thô hơn) được thực

hiện trong các bảng dữ liệu. Đây là một kiến trúc ba tầng tiêu chuẩn cho kho dữ liệu.

Page | 13

Mặc dù khái niệm ban đầu về kho dữ liệu cho thấy độ chi tiết của nó rất thô so với hệ

thống giao dịch, một số tổ chức quyết định giữ dữ liệu chi tiết tích hợp trong kho ngoài

việc tạo dữ liệu tổng hợp. Trong một số trường hợp, ví dụ trong kiến trúc 4 tầng như trong

Hình 3.4, tồn tại hai kho riêng biệt. Kho thứ nhất lưu trữ dữ liệu tích hợp ở mức độ chi tiết

của dữ liệu nguồn, trong khi kho thứ hai tổng hợp các dữ liệu này để tạo điều kiện cho việc

phân tích dữ liệu. Kiến trúc như vậy đặc biệt hữu ích khi hợp nhất dữ liệu nguồn chi tiết

thể hiện một nỗ lực quan trọng và cơ sở dữ liệu chi tiết đồng nhất kết quả có thể có giá trị

riêng của nó bên cạnh việc cung cấp kho thứ hai.

Page | 14

Nhiều lựa chọn thay thế khác tồn tại như kiến trúc không có kho (Hình 3.5) có thể có

hai biến thể để hỗ trợ các dữ liệu: có và không có máy chủ OLAP. Tương tự, một số biến

thể của các kiến trúc trước đó cũng có thể được thực hiện mà không cần

Máy chủ OLAP. Trong trường hợp này, một DBMS tiêu chuẩn hỗ trợ các lược đồ hình

sao / bông tuyết và ứng dụng khách OLAP thực hiện ánh xạ giữa triển khai quan hệ và chế

độ xem đa chiều được cung cấp cho người dùng. Trong ngắn hạn, nó dẫn đến việc chèn

khối dữ liệu dễ dàng hơn trong tổ chức (chẳng hạn như mua lại phần mềm, đường cong

học tập nhỏ hơn) nhưng về lâu dài, nó sẽ dẫn đến khối lượng công việc tăng lên khi xây

dựng và làm mới các khối dữ liệu (như chi phí tay nghề, lặp đi lặp lại nhiệm vụ). Dự phòng

ngắn hạn, công nghệ được sử dụng, chuyên môn nhân sự, tần số làm mới khối, khối lượng

công việc hiện tại và mục tiêu dài hạn phải được xem xét khi xây dựng kiến trúc kho. Các

biến thể khác tồn tại khi người ta tính đến khả năng xây dựng kho dữ liệu ảo. Trong trường

hợp sau này, việc tích hợp dữ liệu được thực hiện nhanh chóng và không được lưu trữ liên

tục, dẫn đến thời gian phản hồi chậm hơn nhưng các khối dữ liệu nhỏ hơn.

Cuối cùng, chúng tôi tin rằng kho dữ liệu là một cơ sở hạ tầng rất hữu ích để tích hợp

dữ liệu, tổng hợp dữ liệu và phân tích dữ liệu trực tuyến đa chiều. Sự tiến bộ của công

nghệ máy tính mới, xử lý song song và tính toán hiệu năng cao cũng như tích hợp khai

thác dữ liệu với kho dữ liệu sẽ giúp kho dữ liệu có thể mở rộng và mạnh mẽ hơn để phục

vụ nhu cầu phân tích dữ liệu đa chiều, quy mô lớn.

1.3. Kho dữ liệu không gian

Không gian cho phép kho dữ liệu dẫn đến phân tích phong phú hơn về vị trí, hình dạng,

phạm vi, định hướng và phân phối địa lý của các hiện tượng. Hơn nữa, các bản đồ tạo điều

kiện khai thác những hiểu biết như các mối quan hệ không gian (kề, kết nối, bao gồm, gần,

loại trừ, lớp phủ, v.v.), phân phối không gian (tập trung, phân tán, nhóm, thường xuyên,

v.v.) và tương quan không gian (Bedard, Rivest và Proulx 2007). Khi chúng ta hình dung

các bản đồ hiển thị các vùng khác nhau, việc so sánh trở nên dễ dàng hơn; khi chúng tôi

Page | 15

phân tích các bản đồ khác nhau của cùng một khu vực, việc khám phá các mối tương quan

trở nên dễ dàng hơn; khi chúng ta nhìn thấy các bản đồ từ các thời đại khác nhau, việc hiểu

được sự tiến hóa của một hiện tượng trở nên dễ dàng hơn. Bản đồ tạo điều kiện cho sự

hiểu biết về các cấu trúc và mối quan hệ có trong các bộ dữ liệu không gian hơn các bảng

và biểu đồ và khi chúng tôi kết hợp các bảng, biểu đồ và bản đồ, chúng tôi tăng đáng kể

tiềm năng khám phá kiến thức địa lý. Bản đồ là công cụ hỗ trợ tự nhiên để hiển thị dữ liệu

khi phân bố không gian của các hiện tượng không tương ứng với các ranh giới hành chính

được xác định trước. Bản đồ là công cụ tích cực để hỗ trợ quá trình tư duy của người dùng

cuối, dẫn đến quá trình khám phá tri thức hiệu quả hơn (não tỉnh táo hơn, nhịp điệu thị

giác tốt hơn, nhận thức toàn diện hơn) (Bedard, Rivest và Proulx, 2007) Kho dữ liệu cho

phép kho dữ liệu dẫn đến phong phú hơn phân tích các vị trí, hình dạng, phạm vi, định

hướng và phân bố địa lý của các hiện tượng. Hơn nữa, các bản đồ tạo điều kiện khai thác

những hiểu biết như các mối quan hệ không gian (kề, kết nối, bao gồm, gần, loại trừ, lớp

phủ, v.v.), phân phối không gian (tập trung, phân tán, nhóm, thường xuyên, v.v.) và tương

quan không gian (Bedard, Rivest và Proulx 2007). Khi chúng ta hình dung các bản đồ hiển

thị các vùng khác nhau, việc so sánh trở nên dễ dàng hơn; khi chúng tôi phân tích các bản

đồ khác nhau của cùng một khu vực, việc khám phá các mối tương quan trở nên dễ dàng

hơn; khi chúng ta nhìn thấy các bản đồ từ các thời đại khác nhau, việc hiểu được sự tiến

hóa của một hiện tượng trở nên dễ dàng hơn. Bản đồ tạo điều kiện cho sự hiểu biết về các

cấu trúc và mối quan hệ có trong các bộ dữ liệu không gian hơn các bảng và biểu đồ và

khi chúng tôi kết hợp các bảng, biểu đồ và bản đồ, chúng tôi tăng đáng kể tiềm năng khám

phá kiến thức địa lý. Bản đồ là công cụ hỗ trợ tự nhiên để hiển thị dữ liệu khi phân bố

không gian của các hiện tượng không tương ứng với các ranh giới hành chính được xác

định trước. Bản đồ là công cụ tích cực để hỗ trợ quá trình tư duy của người dùng cuối, dẫn

đến quá trình khám phá tri thức hiệu quả hơn (não tỉnh táo hơn, nhịp điệu thị giác tốt hơn,

nhận thức toàn diện hơn) (Bedard, Rivest và Proulx, 2007)

Các gói GIS ngày nay đã được thiết kế và sử dụng chủ yếu để xử lý giao dịch. Do đó,

GIS không phải là giải pháp hiệu quả nhất cho việc lưu trữ dữ liệu không gian và nhu cầu

phân tích chiến lược của các tổ chức. Các giải pháp mới đã được phát triển, trong hầu hết

các trường hợp, họ dựa vào sự kết hợp của các công nghệ kho bãi như máy chủ OLAP với

các công nghệ không gian như GIS. Nghiên cứu bắt đầu vào giữa những năm 90 tại một

số trường đại học như Laval (Bedard et al. 1997, Caron 1998, Rivest, Bedard và Marchand

2001), Simon Fraser (Stefanovic 1997, Han, Stefanovic và Koperski 1998), và Minnesota

(Shekhar et al. 2001) và ngày nay, một số nhà nghiên cứu và thực hành đã trở nên tích cực

trong việc lưu trữ dữ liệu không gian, OLAP không gian, khai thác dữ liệu không gian và

bảng điều khiển không gian. Một số nguyên mẫu nội bộ đã được phát triển và triển khai

trong các tổ chức chính phủ và tư nhân, và chúng tôi đã chứng kiến sự xuất hiện của các

giải pháp thương mại trên thị trường.

Page | 16

Sự kết hợp giữa các công nghệ không gian địa lý với các công nghệ lưu trữ dữ liệu đã trở

nên phổ biến hơn. Một số khớp nối bị lỏng lẻo (ví dụ: nhập-xuất-định dạng lại dữ liệu giữa

GIS và OLAP), một số khớp nối kín (ví dụ OLAP không gian chiếm ưu thế OLAP, OLAP

không gian chiếm ưu thế của GIS) trong khi các kết nối khác chặt chẽ (ví dụ: SOLAP tích

hợp hoàn toàn công nghệ) (Rivest et al. 2005, Han và Kamber 2006). Xem các chương

khác trong cuốn sách hiện tại và các ấn phẩm gần đây để biết mô tả về các giải pháp này:

Rivest et al. 2005, Han và Kamber 2006, Damiani và Spaccapietra 2006, Bedard, Rivest

và Proulx 2007, Malinowski và Zimanyi 2008. Trong phần còn lại của chương này, chúng

tôi tập trung vào một số phần mở rộng không gian cơ bản của các khái niệm kho bãi các

biện pháp, ETL không gian (Trích xuất, chuyển đổi, tải) và toán tử OLAP không gian

(hoặc toán tử đa chiều không gian).

1.3.1. Khối dữ liệu không gian

Các khối dữ liệu không gian là các khối dữ liệu trong đó một số thành viên thứ nguyên

hoặc một số sự kiện được tham chiếu theo không gian và có thể được thể hiện trên bản đồ.

Có hai loại khối dữ liệu không gian: dựa trên tính năng và dựa trên raster (Hình 3.6). Các

khối dữ liệu không gian dựa trên tính năng bao gồm các sự kiện tương ứng với các tính

năng riêng biệt có hình học (vectơ hoặc ô) hoặc không có hình học (trong trường hợp đó,

các thành viên chiều phân tích (dimension) phải có hình học dựa trên vectơ hoặc raster).

Hình học thực tế như vậy có thể cụ thể cho thực tế này (trong trường hợp đó nó có thể

được bắt nguồn hoặc không từ các chiều phân tích (dimension)) hoặc nó có thể tương ứng

với hình học của một thành viên không gian. Các khối dữ liệu không gian raster được tạo

thành từ các sự kiện tương ứng với các không gian được phân chia thường xuyên của các

hiện tượng liên tục, mỗi thực tế hạt mịn được đại diện bởi một tế bào và mọi tế bào hạt

mịn là một thực tế.

Page | 17

Theo truyền thống, cơ sở dữ liệu không gian giao dịch bao gồm dữ liệu chủ đề và bản

đồ riêng biệt (ví dụ: sử dụng hệ thống quản lý cơ sở dữ liệu quan hệ và hệ thống thông tin

địa lý). Ngày nay, thường có cả dữ liệu chuyên đề và bản đồ được lưu trữ cùng nhau trong

một máy chủ phổ biến hoặc công cụ cơ sở dữ liệu không gian. Tương tự, các khối dữ liệu

không gian có thể sử dụng dữ liệu theo chủ đề và bản đồ được phân tách thành các bộ dữ

liệu khác nhau (ví dụ: sử dụng máy chủ OLAP và GIS) hoặc chúng có thể lưu trữ dữ liệu

bản đồ nguyên bản và cung cấp các toán tử tổng hợp / tổng hợp không gian tích hợp. Trong

chừng mực, các ứng dụng lưu trữ không gian thực tế đã được dựa trên sự kết hợp của các

công nghệ không gian và phi không gian vì đây vẫn là giải pháp duy nhất có sẵn trên thị

trường.

1.3.2. Các chiều không gian

Ngoài các chiều phân tích (dimension) theo chủ đề và thời gian thông thường của khối

dữ liệu, còn có các chiều phân tích (dimension) không gian (theo nghĩa đa chiều, không

phải là ý nghĩa hình học) có thể thuộc ba loại theo lý thuyết về thang đo (nhận định tính =

danh nghĩa và thứ tự thang đo, định lượng = khoảng và tỷ lệ tỷ lệ, mỗi thang đo cho phép

phân tích phong phú hơn so với tỷ lệ trước đó). Ba loại chiều:

Chiều phân tích (dimension) không gian phi hình học chỉ chứa vị trí danh nghĩa

hoặc thứ tự của các thành viên thứ nguyên, chẳng hạn như tên địa điểm (ví dụ:

Sông St-Lawrence), địa chỉ đường phố (134 Đường chính) hoặc các ranh giới có

cấu trúc phân cấp (ví dụ: Montreal → Quebec → Canada → Bắc Mỹ). Không phải

hình dạng, cũng không phải hình học, cũng không phải dữ liệu bản đồ. Đây là loại

chiều phân tích (dimension) không gian duy nhất được hỗ trợ bởi công nghệ lưu

Page | 18

trữ phi không gian (ví dụ: OLAP). Các khả năng và giới hạn của các chiều phân

tích (dimension) như vậy đã được Caron (1998) chứng minh; họ chỉ có thể cung

cấp một phần của sự phong phú về phân tích của các loại chiều phân tích

(dimension) không gian khác (Bedard, Rivest và Proulx 2007).

Chiều phân tích (dimension) không gian hình học chứa biểu diễn bản đồ dựa trên

vectơ cho mọi thành viên ở mọi cấp độ phân cấp chiều phân tích (dimension) để

cho phép hiển thị bản đồ, khoan không gian hoặc hoạt động không gian khác của

các thành viên chiều phân tích (dimension) (Bédard, Rivest và Proulx 2007). Ví

dụ: mỗi thành phố ở Bắc Mỹ sẽ được đại diện bởi một điểm, mỗi tỉnh / bang

Canada, Hoa Kỳ hoặc Mexico sẽ được đại diện dưới dạng đa giác, mọi quốc gia

Bắc Mỹ cũng sẽ được đại diện là đa giác, cũng như Bắc Mỹ chinh no. Tương tự,

đa giác có thể đại diện cho các vùng bằng nhau ở British-Columbia và mọi khái

quát hóa, chẳng hạn như các vùng bao gồm 0-500 mét, 500-1000 mét, v.v., cũng

sẽ được biểu diễn bằng hình học đa giác.

Chiều phân tích (dimension) không gian hình học hỗn hợp chứa một biểu diễn bản

đồ cho một số thành viên của chiều phân tích (dimension) và bộ định vị danh nghĩa

/ thứ tự cho các thành viên khác. Ví dụ, đây có thể là tất cả các thành viên của một

số cấp bậc nhất định (ví dụ: một điểm cho mọi thành phố, đa giác cho mỗi tỉnh /

bang, nhưng chỉ đặt tên cho các quốc gia và cho Bắc Mỹ, tức là không có đa giác

cho các cấp này sau hai cấp của thứ bậc). Sau đó, các mức phi hình học có thể là

cấp độ hạt tốt nhất (để giảm các nỗ lực số hóa bản đồ), các mức tổng hợp nhất (khi

người dùng biết chính xác vị trí của chúng), ở bất kỳ đâu, ở bất kỳ số nào và trong

bất kỳ chuỗi nào. Một chiều phân tích (dimension) không gian hỗn hợp cũng có

thể chứa một đại diện bản đồ cho chỉ một số thành viên có cùng cấp bậc (ví dụ: tất

cả các thành phố của Canada, nhưng không phải tất cả các thành phố của Mexico).

Chiều phân tích (dimension) không gian hỗn hợp cung cấp một số lợi ích của chiều

phân tích (dimension) không gian hình học trong khi chịu một số hạn chế của chiều

phân tích (dimension) không gian phi hình học, tất cả điều này ở các mức độ khác

nhau tùy thuộc vào loại hỗn hợp có liên quan.

Hơn nữa, chiều phân tích (dimension) không gian liên quan đến các cách khác nhau để

sử dụng hình học để biểu thị một hiện tượng: dữ liệu vectơ tôpô định hướng tính năng rời

rạc so với dữ liệu raster hướng hiện tượng liên tục (McHugh 2008). Tùy thuộc vào loại

hình học được sử dụng, tiềm năng của người dùng để thực hiện phân tích không gian và

khám phá kiến thức địa lý thay đổi đáng kể. Kết quả là, người dùng có thể lựa chọn trong

số bảy loại chiều phân tích (dimension) không gian như được trình bày trong Hình 3.7.

Page | 19

Bốn loại chiều phân tích (dimension) không gian bổ sung được trình bày sau đây:

Chiều phân tích (dimension) không gian raster: Mọi cấp độ của hệ thống phân cấp

chiều phân tích (dimension) đều sử dụng cấu trúc raster, độ phân giải không gian

cao nhất được sử dụng cho cấp độ phân cấp tốt nhất. Chẳng hạn, người ta có thể

sử dụng 100km ô cho Bắc Mỹ, 10km ô cho các quốc gia và 1km ô cho tỉnh / bang.

Chiều phân tích (dimension) không gian lai: Một số cấp của phân cấp chiều phân

tích (dimension) sử dụng cấu trúc raster trong khi các cấp khác sử dụng cấu trúc

vectơ. Điều này có thể là ví dụ hình học đa giác cho Bắc Mỹ và cho các quốc gia

trong khi cấu trúc raster được sử dụng cho tỉnh / bang. Ngược lại, đây có thể là

điểm cho các thành phố, hình học đa giác cho các tỉnh / bang, 100km ô raster cho

các quốc gia và 1000km cho Bắc Mỹ. Tất cả các cấp phải được đại diện theo bản

đồ.

Chiều phân tích (dimension) không gian raster hỗn hợp: Chiều phân tích

(dimension) như vậy chứa dữ liệu raster cho một số thành viên của thứ nguyên và

định vị danh nghĩa / thứ tự cho các thành viên khác (nghĩa là không có hình học).

Ví dụ, đây có thể là tất cả các thành viên của một số cấp bậc nhất định của phân

cấp thứ nguyên (ví dụ: các ô cho cấp tỉnh / bang, tên của cấp quốc gia và Bắc Mỹ,

nghĩa là không có đại diện bản đồ cho hai cấp sau này của phân cấp) .

Geometric NonGeometric

Raster

Mixed

Geometric

Mixed

Raster

Mixed

Hybrid

Hybrid

CHIỀU KHÔNG GIAN Basic Spatial

dimensions

Mixed dimensions

Hybrid dimensions

Page | 20

Sau đó, các khả năng trộn tương tự tồn tại như đối với chiều phân tích (dimension)

không gian hình học hỗn hợp. Một chiều phân tích (dimension) không gian raster

hỗn hợp cũng có thể chứa các ô raster chỉ dành cho một số thành viên có cùng cấp

bậc (ví dụ: tất cả các tỉnh của Canada, nhưng không phải tất cả các tiểu bang của

Mỹ). Chiều phân tích (dimension) raster hỗn hợp cung cấp một số lợi ích của chiều

phân tích (dimension) không gian raster trong khi chịu một số hạn chế của chiều

phân tích (dimension) không gian phi hình học, tất cả điều này ở các mức độ khác

nhau tùy thuộc vào loại hỗn hợp có liên quan.

Chiều phân tích (dimension) không gian hỗn hợp hỗn hợp: Chiều phân tích

(dimension) như vậy chứa dữ liệu raster cho một số thành viên của chiều phân tích

(dimension), dữ liệu vectơ cho các thành viên khác và định vị danh nghĩa / thứ tự

cho các phần còn lại (nghĩa là không có hình học). Ví dụ, đây có thể là tất cả các

thành viên của một số cấp bậc nhất định (ví dụ: tên của các thành phố, đa giác cho

cấp tỉnh / bang, các ô raster cho cấp quốc gia và tên chỉ dành cho cấp Bắc Mỹ, tức

là không đại diện bản đồ cho các cấp tốt nhất và tổng hợp nhất của hệ thống phân

cấp). Sau đó, các loại khả năng trộn giống nhau tồn tại như đối với chiều phân tích

(dimension) không gian hình học hỗn hợp, không hạn chế. Một chiều phân tích

(dimension) không gian lai hỗn hợp cũng có thể chứa các ô raster cho một số thành

viên có cùng cấp bậc, đa giác cho các thành viên khác và không có hình học cho

các phần còn lại của cấp này (ví dụ: tất cả các tỉnh của Canada sử dụng ô raster, tất

cả các quốc gia Mỹ sử dụng đa giác và Nhà nước Mexico sử dụng tên). Chiều phân

tích (dimension) hỗn hợp hỗn hợp cung cấp một số lợi ích của raster và chiều phân

tích (dimension) không gian hình học trong khi chịu một số hạn chế của chiều phân

tích (dimension) không gian phi hình học, tất cả điều này ở các mức độ khác nhau

tùy thuộc vào loại hỗn hợp có liên quan.

1.3.3. Các phép đo không gian (Spatial measures)

Ngoài các biện pháp phi không gian vẫn còn tồn tại trong kho dữ liệu không gian,

chúng tôi có thể phân biệt ba loại biện pháp không gian (theo nghĩa đa chiều):

Phép đo (measure) không gian số: giá trị đơn thu được từ xử lý dữ liệu không gian

(ví dụ: số lượng lân cận, mật độ không gian). Biện pháp này chỉ chứa dữ liệu số và

còn được gọi là thước đo không gian phi hình học.

Biện pháp không gian hình học: tập hợp tọa độ hoặc con trỏ đến các nguyên hàm

hình học là kết quả của một hoạt động hình học như liên kết không gian, hợp nhất

không gian, giao cắt không gian hoặc tính toán vỏ lồi. Ví dụ, trong quá trình tóm

tắt (hoặc cuộn lên) trong khối dữ liệu không gian, các vùng có cùng phạm vi nhiệt

độ và độ cao sẽ được nhóm vào cùng một ô và thước đo được tạo thành chứa một

tập hợp các con trỏ tới các vùng đó.

Đo không gian hoàn chỉnh: kết hợp một giá trị số và hình học liên quan của nó. Ví

dụ, số lượng cụm dịch với vị trí của chúng.

Page | 21

1.3.4. Kết chuyển dữ liệu không gian (Spatial ETL)

Mặc dù có tất cả các khả năng này, nhưng nó nhanh chóng trở nên rõ ràng rằng việc

tích hợp và tổng hợp / tóm tắt dữ liệu không gian đòi hỏi phải xử lý bổ sung so với dữ liệu

phi không gian. Ví dụ, người ta phải đảm bảo rằng mỗi tập dữ liệu nguồn là chính xác về

mặt tôpô trước khi tích hợp và tôn trọng các ràng buộc toàn vẹn không gian quan trọng,

rằng lớp phủ của các bản đồ này trong kho cũng chính xác về mặt cấu trúc (ví dụ: không

có rãnh và khe hở) và phù hợp với các cập nhật , rằng các ánh xạ kho ở các thang phân

tích khác nhau là nhất quán, rằng các hệ quy chiếu không gian và các phương pháp tham

chiếu được biến đổi đúng, rằng hình học của các đối tượng phù hợp với từng mức độ chi

tiết, rằng không có vấn đề không khớp giữa các mức độ trừu tượng của ngữ nghĩa của hệ

thống phân cấp chiều phân tích (dimension) và kết quả tổng quát hóa bản đồ (Bedard,

Rivest và Proulx 2007), chúng tôi xử lý đúng các ranh giới không gian mờ, v.v. Do đó,

ETL không gian đòi hỏi phải có chuyên môn về chính bản chất của tham chiếu không gian

(ví dụ: , hội nghị địa lý và công nghệ hình ảnh, xử lý địa lý và lập bản đồ) và một mu st

không cho rằng quá trình này có thể được thực hiện tự động 100%. Hơn nữa, có những

vấn đề liên quan đến mong muốn của người dùng để làm sạch và tích hợp dữ liệu không

gian từ các thời đại khác nhau. Sự đánh đổi phải được thực hiện và các loại phân tích hỗ

trợ quyết định khác nhau phải được loại bỏ vì các đơn vị không gian cơ bản đã được xác

định lại theo thời gian; bởi vì dữ liệu lịch sử đã không được lưu giữ; bởi vì ngữ nghĩa dữ

liệu và mã hóa đã được sửa đổi theo thời gian và không thể so sánh trực tiếp; bởi vì các hệ

thống kế thừa không được ghi lại theo các thực hành kỹ thuật phần mềm tốt; bởi vì các hệ

quy chiếu không gian đã thay đổi, do độ mờ trong ranh giới không gian của một số hiện

tượng tự nhiên được quan sát lại ở các thời đại khác nhau, bởi vì độ chính xác không gian

của các công nghệ đo lường đã thay đổi; v.v. (xem Bernier và Bedard 2007 về các vấn đề

với dữ liệu không gian và Kim 1999 cho dữ liệu phi không gian). Người ta phải nhận ra

rằng việc xây dựng và làm mới kho dữ liệu không gian đa nguồn, đa nguồn và đa kỷ

nguyên là khả thi nhưng đòi hỏi phải có nỗ lực, đánh đổi chiến lược và trình độ chuyên

môn cao. Trong một số trường hợp, xử lý đúng cách với siêu dữ liệu, thông tin chất lượng

và cảnh báo người dùng nhạy cảm theo ngữ cảnh trở thành một điều cần thiết (Levesque

et al. 2007).

Các công nghệ ETL không gian đang nổi lên. Người ta có thể kết hợp một công cụ

ETL không theo định hướng kho hoặc các chức năng tích hợp của máy chủ OLAP với

công nghệ không gian như GIS, thư viện không gian nguồn mở hoặc ETL không gian định

hướng giao dịch thương mại. Người ta cũng có thể tìm kiếm các nguyên mẫu ETL không

gian tích hợp đầy đủ đang được phát triển trong các trung tâm nghiên cứu. Danh mục công

cụ ETL không gian mới này sẽ bao gồm các toán tử tổng hợp / tổng hợp không gian để tạo

thuận lợi cho việc tính toán các biện pháp không gian tổng hợp.

Mặc d`ù có những khó khăn này, vẫn có thể phát triển các ứng dụng kho không gian

đơn giản nếu một trong những yêu cầu bản đồ ở mức hợp lý. Nhiều ứng dụng đang chạy

ngày hôm nay và đã thành công để giảm thiểu các vấn đề trên. Đó là trường hợp ví dụ với

Page | 22

dữ liệu hành chính được quản lý chặt chẽ và không được xác định lại sau mỗi năm đến

mười năm (ví dụ: địa chính, đô thị) hoặc với dữ liệu luôn được thu thập theo quy trình

được xác định nghiêm ngặt về chất lượng đã biết (ví dụ: địa hình cơ sở dữ liệu). Với các

bộ dữ liệu như vậy, các vấn đề là tối thiểu. Tuy nhiên, với cơ sở dữ liệu về hiện tượng tự

nhiên hoặc cơ sở dữ liệu không theo dõi dữ liệu lịch sử, chúng ta phải đối mặt với một số

vấn đề nêu trên và chọn phát triển kho dữ liệu phi thời gian, kho dữ liệu bán thời gian (tồn

tại dữ liệu lịch sử kỷ nguyên nhưng dữ liệu không thể so sánh theo thời gian), kho hiển thị

bản đồ không khớp với các tỷ lệ khác nhau và kho có chất lượng dữ liệu khác nhau. Theo

kinh nghiệm của chúng tôi, phần lớn các nỗ lực xây dựng kho dữ liệu không gian thuộc về

ETL không gian và chất lượng của dữ liệu không gian di sản hiện có có tác động quan

trọng đến thiết kế và xây dựng kho.

1.3.5. Các toán tử OLAP không gian (Spatial OLAP operators)

Các khối dữ liệu không gian có thể được khám phá và phân tích bằng các toán tử OLAP

không gian. Các hoạt động không gian cho phép điều hướng trong khối dữ liệu liên quan

đến chiều phân tích (dimension) không gian trong khi vẫn giữ cùng mức độ chi tiết theo

chủ đề và thời gian (Bedard, Rivest và Proulx 2007). Các toán tử SOLAP được thực thi

trực tiếp trên các bản đồ và hoạt động giống như các toán tử phi không gian. Các toán tử

cơ bản bao gồm khoan không gian, cuộn lên không gian, khoan không gian, lát cắt không

gian và súc sắc trong khi các toán tử tiên tiến nhất bao gồm mở không gian, đóng không

gian, đồng bộ hóa khung nhìn, v.v. al. 2005). Một cuộc khảo sát gần đây về các công nghệ

thương mại được đề xuất để phát triển các ứng dụng OLAP không gian (Proulx, Rivest và

Bedard 2007) đã chỉ ra rằng chỉ các công nghệ SOLAP tích hợp chặt chẽ nhất mới hỗ trợ

tốt cho các hoạt động khoan không gian cơ bản; các công nghệ được kết hợp lỏng lẻo thay

vì sử dụng các chức năng truyền thống, zoom zoom hoặc các lớp chọn kiểu truyền thống

của mô hình giao dịch truyền thống để mô phỏng sự thay đổi mức độ trừu tượng theo chiều

không gian.

1.4. Thời điểm thích hợp để Tích hợp GIS vào dữ liệu lớn

Dữ liệu lớn không phải là một xu hướng mới. Tuy nhiên, giờ đây, nó đang trở thành một

phần lớn hơn của khoa học thông tin địa lý.

Một trong những thay đổi hình thái lớn nhất của dữ liệu lớn là mối quan hệ giữa năng

lực phần cứng, phần mềm và chuyên môn. Ngày nay, chi phí cho hạ tầng phần cứng có

năng lực lưu trữ và xử lý mạnh mẽ ngày càng rẻ hơn. Các tổ chức hoặc doanh nghiệp cỡ

vừa hiện nay có thể mua phần cứng mạnh mẽ phục vụ cho các công cụ phân tích, đáp ứng

chính xác nhu cầu của họ. Trong khi đó, các tổ chức nhỏ hơn có thể đầu tư vào các giải

pháp điện toán đám mây có khả năng mở rộng cao, điều này giúp bất kỳ quy mô tổ chức

hay doanh nghiệp nào cũng có khả năng dễ dàng tiếp cận các nền tảng dữ liệu lớn trong

GIS.

Page | 23

Do đó, thách thức của dữ liệu lớn trong GIS ngày nay không phải là về phần cứng mà là

việc tìm kiếm những chuyên gia có thể quản lý khối lượng thông tin khổng lồ và biến nó

thành giá trị cho tổ chức.

2. Mô tả giao diện phần mềm

Tạo báo cáo trên bản đồ

Để tạo một báo cáo trên bản đồ, người dùng thực hiện như hướng dẫn sau.

- Người dùng nhấn nút xổ xuống để chọn “Lớp dữ liệu”:

-

Chọn lớp dữ liệu

- Người dùng nhấn nút xổ xuống để chọn “Thuộc tính gom nhóm”:

Page | 24

Chọn thuộc tính gom nhóm

- Tiếp theo người dùng chọn điều kiện lọc dữ liệu, liên kết dữ liệu (bước này có thể

chọn hoặc không, tùy nhu cầu lọc dữ liệu của người dùng).

o Chọn điều kiện lọc: xem chức năng lọc dữ liệu.

o Chọn liên kết dữ liệu: xem chức năng liên kết dữ liệu.

Chọn lọc dữ liệu, liên kết dữ liệu

Page | 25

- Tiếp theo, người dùng nhấn nút xổ xuống để chọn “Thuộc tính địa lý”:

Chọn thuộc tính địa lý

- Cuối cùng, người dùng nhấn nút “Thống kê” để thực thi.

Nhấn nút thống kê

- Khi đó, kết quả thống kê được hiển thị trên bản đồ như hình sau.

Page | 26

Kết quả thống kê

Chia sẻ báo cáo

Sau khi tạo báo cáo thành công, người dùng có thể chia sẻ báo cáo này bằng cách

như sau.

- Người dùng nhấn vào nút chức năng “Chia sẻ” .

Page | 27

Nhấn chọn chức năng chia sẻ

- Khi đó, hộp thoại thông tin chia sẻ xuất hiện. Người dùng điền các thông tin vào

hộp thoại và nhấn nút “Tạo”:

o Tên chia sẻ: tên chia sẻ của báo cáo.

o Ngày hết hạn: ngày báo cáo bị hết hạn, báo cáo sẽ bị xóa khỏi trang khai

thác của người dùng.

Hộp thoại thông tin chia sẻ

- Khi đó, thông tin chia sẻ của báo cáo bao gồm các thông tin: “Tên hiển thị, Đường

dẫn truy vấn, Infold, Token”. Người dùng dùng các thông tin này để chia sẻ báo

cáo đến người dùng khai thác dữ liệu.

Thông tin chia sẻ

Page | 28

Chức năng lọc dữ liệu

Mục này mô tả chức năng lọc dữ liệu.

Lọc dữ liệu

Để lọc dữ liệu, người dùng thực hiện như sau:

- Người dùng nhấn nút chọn thuộc tính . Khi đó, hộp thoại thêm

thuộc tính xuất hiện:

Page | 29

Thêm thuộc tính

- Người dùng nhấn chọn thuộc tính để thêm vào điều kiện lọc bằng cách nhấn đúp

vào thuộc tính trong hộp thoại “Thêm thuộc tính dữ liệu” hoặc nhấn chọn thuộc

tính và nhấn nút ”Chọn” như hình sau.

Thêm thuộc tính lọc

Page | 30

- Hoặc người dùng có thể thêm thuộc tính lọc bằng cách nhấn nút “Thêm thuộc

tính” và nhấn nút xổ xuống để chọn thuộc tính cần thêm (như 2 hình sau).

Nhấn nút “Thêm thuộc tính”

Chọn thuộc tính cần thêm

- Tiếp theo người dùng tiến hành điền các giá trị cho thuộc tính vừa thêm.

Page | 31

Chọn toán tử cho thuộc tính

Nhập giá trị cho thuộc tính

- Ngoài ra, người dùng có thể chọn thêm chức năng “Thêm nhóm điều kiện”

để lọc dữ liệu.

Page | 32

Chọn chức năng “Thêm nhóm điều kiện”

Nhóm điều kiện thêm vào

- Trong quá trình chọn điều kiện lọc dữ liệu, người dùng muốn xóa bỏ thuộc tính

hay nhóm điều kiện thì nhấn chọn thuộc tính (nhóm điều kiện) và nhấn nút “Xóa”

.

Page | 33

Xóa thuộc tính

Chức năng liên kết dữ liệu

Mục này mô tả chức năng liên kết dữ liệu.

Liên kết dữ liệu

Để tạo một liên kết dữ liệu, người dùng thực hiện như sau:

Page | 34

- Nhấn chọn “Lớp dữ liệu liên kết”:

Chọn lớp dữ liệu liên kết

- Nhấn chọn “Thuộc tính liên kết”:

Chọn thuộc tính liên kết

- Tiếp theo, người dùng có thể chọn thêm điều kiện lọc cho liên kết dữ liệu này (tùy

chọn).

Page | 35

3. Mã nguồn

namespace VDMS.Library.Provider.Helper.Models

{

[Serializable]

[DataContract]

public class SearchQueryRequest : SimpleSearchQueryRequest

{

[DataMember]

public QueryInfo QueryInfo;

}

[Serializable]

[DataContract]

public class MultiSearchQueryRequest : SimpleSearchQueryRequest

{

[DataMember]

public QueryInfo[] QueryInfos;

Page | 36

public List<SearchQueryRequest>

ToSearchQueryRequest(MultiSearchQueryRequest request)

{

var res = new List<SearchQueryRequest>();

if (request != null && request.QueryInfos != null && request.QueryInfos.Length

> 0)

{

foreach (var qi in request.QueryInfos)

{

var query = new SearchQueryRequest()

{

QueryInfo = qi,

Path = request.Path,

IsInTree = request.IsInTree,

SearchKey = request.SearchKey,

Layers = request.Layers,

Start = request.Start,

Count = request.Count,

SortOption = request.SortOption,

ReturnFields = request.ReturnFields,

FilterQuery = request.FilterQuery,

DistinctField = request.DistinctField,

GeoJson = request.GeoJson,

Distance = request.Distance

};

res.Add(query);

}

}

return res;

Page | 37

}

}

[Serializable]

[DataContract]

public class SimpleSearchQueryRequest

{

//Basic

[DataMember]

public string Path;

[DataMember]

public bool IsInTree;

[DataMember]

public string SearchKey;

[DataMember]

public string[] Layers;

[DataMember]

public int Start;

[DataMember]

public int Count;

[DataMember]

public SortOption SortOption;

[DataMember]

public string[] ReturnFields;

[DataMember]

public string[] FilterQuery;

[DataMember]

public string DistinctField;

[DataMember]

public bool Detail;

Page | 38

//Geo

[DataMember]

public string GeoJson;

[DataMember]

public double Distance;

}

[Serializable]

[DataContract]

public class JoinQueryRequest

{

[DataMember]

public string LeftField;

[DataMember]

public string RightField;

[DataMember]

public string LeftLayer;

[DataMember]

public string RightLayer;

[DataMember]

public string LeftPath;

[DataMember]

public string RightPath;

[DataMember]

public QueryInfo[] LeftQuery;

[DataMember]

public QueryInfo[] RightQuery;

[DataMember]

public int Start;

[DataMember]

public int Count;

Page | 39

[DataMember]

public bool NotEqual;

[DataMember]


[DataMember]

public string[] ReturnFields;

}

[Serializable]

[DataContract]

public class StatQueryRequest : SearchQueryRequest

{

[DataMember]

public List<StatQuery> StatInfos;

public SearchQueryRequest ToSearchQueryRequest()

{

try

{

return new SearchQueryRequest()

{

Path = this.Path,

IsInTree = this.IsInTree,

SearchKey = this.SearchKey,

Layers = this.Layers,

Start = this.Start,

Count = this.Count,

SortOption = this.SortOption,

ReturnFields = this.ReturnFields,

FilterQuery = this.FilterQuery,

DistinctField = this.DistinctField,

Page | 40

Detail = this.Detail,

GeoJson = this.GeoJson,

Distance = this.Distance,

QueryInfo = this.QueryInfo

};

}

catch (Exception exc)

{

new LogHelper().LogError(exc.Message);

return null;

}

}

}

[Serializable]

[DataContract]

public class StringifyStatQueryRequest : SearchQueryRequest

{

[DataMember]

public string StatInfos;

public SearchQueryRequest ToSearchQueryRequest()

{

try

{

return new SearchQueryRequest()

{

Path = this.Path,

IsInTree = this.IsInTree,

SearchKey = this.SearchKey,

Page | 41

Layers = this.Layers,

Start = this.Start,

Count = this.Count,

SortOption = this.SortOption,

ReturnFields = this.ReturnFields,

FilterQuery = this.FilterQuery,

DistinctField = this.DistinctField,

Detail = this.Detail,

GeoJson = this.GeoJson,

Distance = this.Distance,

QueryInfo = this.QueryInfo

};

}

catch (Exception exc)

{

new LogHelper().LogError(exc.Message);

return null;

}

}

}

[Serializable]

[DataContract]

public enum StatType

{

Terms = 0,

Query = 1,

Range = 2,

Aggregation = 3

}

Page | 42

[Serializable]

[DataContract]

public abstract class StatQuery

{

[DataMember]

public StatType StatisticType { get; set; } = StatType.Terms;

[DataMember]

public string StatisticName { get; set; }

[DataMember]

public List<object> SubStatisticInfo { get; set; }

[DataMember]

public string Sort { get; set; }

}

[Serializable]

[DataContract]

public class StatQueryInfo : StatQuery

{

[DataMember]

public string StatisticField { get; set; }

[DataMember]

public int StatisticPage { get; set; }

[DataMember]

public int StatisticLimit { get; set; }

}

[Serializable]

[DataContract]

public class QueryQueryInfo : StatQuery

{

Page | 43

[DataMember]

public string StatisticQuery { get; set; }

}

[Serializable]

[DataContract]

public class RangeQueryInfo : StatQuery

{

[DataMember]


[DataMember]

public object StatisticStart { get; set; }

[DataMember]

public object StatisticEnd { get; set; }

[DataMember]

public object StatisticGap { get; set; }

}

[Serializable]

[DataContract]

public class AggregateQueryInfo : StatQuery

{

[DataMember]

public AggregateFunction StatistecFunction { get; set; }

[DataMember]


[DataMember]

public string StatistecAlias { get; set; }

}

[Serializable]

[DataContract]

Page | 44

public class AutoSuggestRequest

{

[DataMember]

public string Keyword;

[DataMember]

public string Layer;

[DataMember]

public int Count;

[DataMember]


}

[Serializable]

[DataContract]

public class ExecuteSQLRequest

{

[DataMember]

public string Select;

[DataMember]

public string From;

[DataMember]

public string Where;

[DataMember]

public string GroupBy;

[DataMember]

public string OrderBy;

[DataMember]

public string Having;

[DataMember]

public string Limit;

}

}

hỆ thỐng lƯu trỮ vÀ x lÝ dỮ liỆu gis tÍch hỢp gẮn vỚi … · 2020-05-19 · cơ...

Documents