談空間資料倉儲及資料探勘的觀念與技術...

8
林業研究專訊 Vol.17 No.2 2010 61 談空間資料倉儲及資料探勘的觀念與技術 過去 30 年來,由於資訊科技的進步, 各類型資料庫的建立蓬勃發展,導致資料庫 所儲存的資料以幾何級數的方式爆增,以 地理資訊系統(GIS, Geographic Information Systems) 為基礎的空間資料庫自不例外。事 實上,地理資訊系統資料庫包含了空間及與 空間關聯的屬性資料庫(本文統稱之空間資料 )。本土的空間資料庫,近幾年在國土資訊 系統政策有計畫的推動,以及各級政府部門 為各自的業務目地需求下紛紛建置,已產生 了巨量的空間資料。為了更有效率地針對特 殊目的,從分散式的龐大資料庫中獲得有利的 資訊或知識,很多具有空間資料生產與資料提 供特性的政府部門(例如:林務局及農航所)紛紛發展所謂的空間資料倉儲與資料探勘系 統,藉以提升其整合型資料庫在查詢、管理、 分析及服務方面的效率。本文以地理資訊系統 為基礎進行建置的空間資料庫的角度,淺顯地 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。 什麼是空間資料倉儲 (Spatial Data Warehouses)誠如資料倉儲之父 Inmonn(1996) 言,「資料倉儲」是企業計算 (enterprise computing) 重要的基石。採用「資料倉儲」 一詞,主要在說明:能從一個企業(或政府部 ) 的不同使用目的資訊系統中蒐集資料, 進而建立的一個中心型資料儲存庫。雖說如 此,資料倉儲本身並不單是個「超級資料 庫」,它能夠在不損及或改變各部門資料庫 系統條件下,專門為統合不同部門的資料庫 系統而設計。資料倉儲本身儲存了來自不同 部門經過選擇、清理(clean) 後,並加以複製 的資料庫、行政管理資料,以及其詮釋資料 (metadata ,能解釋資料本身的資料稱之) 如圖 1 。本質上,這意謂資料倉儲的設置目的是 用來補充部門現行的分散資料庫無法提供組 織所需的資訊,而不是要取代它們,這也是 兩者的設置目的主要差別。而特別要需要強 調的是,有關用於傳統部門資料庫的擷取及 儲存商務或業務資料,使用的是線上交易處 (on-line transactional processing , OLTP)術,用它來管理必須經常變動或更新之資料 庫中的每一筆交易。相對的,資料倉儲其設 計目的係針對歷史資料而非交易資料,所以 一般只能讀取或增加資料,而資料本身不會 被更改,所使用的是線上分析處理(on-line analytical processing, OLAP)的技術,以之決 定分析資料與交易的特徵(有關兩者的比較如 1);特徵主要包括了不同資料集(dataset)間的關係、資料使用的趨勢及資料使用者的 行為等。當進一步使用到比較複雜的策略及 演算法去偵測資料中的隱藏資訊,形成決策 用知識或提供法則知識給智慧型自動化系統 運用,此一過程稱為資料探勘(data mining) 或資料庫的知識發現(knowledge discovery in databases, KDD)。在此,本文所稱的資訊 (information) 定義為:以有意義的形式加以 排列及處理,可用來消除不確定性的資料 (data),簡言之,資訊為有意義的資料。而本 ⊙林業試驗所森林經營組‧謝漢欽、汪大雄、鍾智昕

Upload: others

Post on 09-Oct-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 2010 61

林業論壇

談空間資料倉儲及資料探勘的觀念與技術

過去30年來,由於資訊科技的進步,

各類型資料庫的建立蓬勃發展,導致資料庫

所儲存的資料以幾何級數的方式爆增,以

地理資訊系統(GIS, Geographic Information

Systems)為基礎的空間資料庫自不例外。事

實上,地理資訊系統資料庫包含了空間及與

空間關聯的屬性資料庫(本文統稱之空間資料

庫)。本土的空間資料庫,近幾年在國土資訊

系統政策有計畫的推動,以及各級政府部門

為各自的業務目地需求下紛紛建置,已產生

了巨量的空間資料。為了更有效率地針對特

殊目的,從分散式的龐大資料庫中獲得有利的

資訊或知識,很多具有空間資料生產與資料提

供特性的政府部門(例如:林務局及農航所),

紛紛發展所謂的空間資料倉儲與資料探勘系

統,藉以提升其整合型資料庫在查詢、管理、

分析及服務方面的效率。本文以地理資訊系統

為基礎進行建置的空間資料庫的角度,淺顯地

介紹有關資料倉儲的觀念及資料探勘的技術與

目的,希望能澄清相關觀念,並有利於未來空

間資料庫系統的建立與發展。

什麼是空間資料倉儲

(Spatial Data Warehouses)?

誠如資料倉儲之父 I n m o n n ( 1 9 9 6 ) 所

言,「資料倉儲」是企業計算 (en te rpr i se

computing)重要的基石。採用「資料倉儲」

一詞,主要在說明:能從一個企業(或政府部

門)的不同使用目的資訊系統中蒐集資料,

進而建立的一個中心型資料儲存庫。雖說如

此,資料倉儲本身並不單是個「超級資料

庫」,它能夠在不損及或改變各部門資料庫

系統條件下,專門為統合不同部門的資料庫

系統而設計。資料倉儲本身儲存了來自不同

部門經過選擇、清理(clean)後,並加以複製

的資料庫、行政管理資料,以及其詮釋資料

(metadata,能解釋資料本身的資料稱之)如圖

1。本質上,這意謂資料倉儲的設置目的是

用來補充部門現行的分散資料庫無法提供組

織所需的資訊,而不是要取代它們,這也是

兩者的設置目的主要差別。而特別要需要強

調的是,有關用於傳統部門資料庫的擷取及

儲存商務或業務資料,使用的是線上交易處

理(on-line transactional processing ,OLTP)技

術,用它來管理必須經常變動或更新之資料

庫中的每一筆交易。相對的,資料倉儲其設

計目的係針對歷史資料而非交易資料,所以

一般只能讀取或增加資料,而資料本身不會

被更改,所使用的是線上分析處理(on-line

analytical processing, OLAP)的技術,以之決

定分析資料與交易的特徵(有關兩者的比較如

表1);特徵主要包括了不同資料集(dataset)之

間的關係、資料使用的趨勢及資料使用者的

行為等。當進一步使用到比較複雜的策略及

演算法去偵測資料中的隱藏資訊,形成決策

用知識或提供法則知識給智慧型自動化系統

運用,此一過程稱為資料探勘(data mining)

或資料庫的知識發現(knowledge discovery

in databases, KDD)。在此,本文所稱的資訊

(information)定義為:以有意義的形式加以

排列及處理,可用來消除不確定性的資料

(data),簡言之,資訊為有意義的資料。而本

⊙林業試驗所森林經營組‧謝漢欽、汪大雄、鍾智昕

Page 2: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 201062

林業論壇

文所稱的知識(knowledge)定義為:一個或多

個資訊關聯在一起,能形成有應用價值的資

訊結構;特別強調知識中的資訊關聯及其應

用價值。資料探勘所要發現的正是這些有應

用價值的結構化資訊;如要能符合決策需求

及進一步科學問題求解,尚要對探勘所得的

資訊進行概念化,提升其層次,使之轉化為

有效、新穎、人類容易瞭解之有應用價值的

知識(鄭凱昌,2001;Miller et al. 2001)。

目前許多政府機構採用資料倉儲的方法

當作處理地理空間資料的管理策略,藉以提

升資料庫查詢的效率、並設計資料探勘系統

或附加各類資料探勘工具,可達成資料集之

間的關係、資料使用的趨勢及資料使用者的

行為分析。除能提供有利於策略決策(strategic

decisions)的有用資訊,並能作為從資料庫中

探勘有用資訊與進一步知識發現的基礎。空

間資料倉儲不僅整合蒐集了各部門資料儲存

圖1典型地理空間資料倉儲系統、相關資料庫及應用架構圖(引自Lo CP 2007;謝漢欽製圖)

表1OLTP與OLAP系統特性比較(引自曾憲雄、蔡秀滿等,2007;謝漢欽製表)

比較特性 OLTP系統特性 OLAP系統特性

功能需求 針對企業現行業務的自動化而設計 針對企業資料分析需求而設計

資料類別 資料比較偏重細節 資料偏重彙總或統計資訊

異動頻率 資料隨時可被新增、刪除以及變更 歷史性的資料,異動機會少

設計方式 資料庫設計採用正規化設計 為了執行效率,不採用正規化設計

儲存方式 使用關聯式資料庫架構儲存資料 使用多維度資料庫結構

完整性 資料未整理過,可能缺失或是不一致 資料經過整理較一致、完整

Page 3: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 2010 63

林業論壇

在中心型資料儲存庫中,並且對不同作業系

統及資料結構格式進行轉換;其中轉化建置

的關鍵性資料庫結構,稱之為「資料立方」

(data cube)的多維(可擴展至n維)結構設計,

此一設計搭配OLAP方法可達成有效率的多

面向的資料庫「超級」查詢功能,有別於傳

統資料庫系統單維式的結構化查詢語言(SQL,

Structured Query Language)。現今的空間資料

倉儲多數結合了網際網路空間資訊系統(Web

GIS)的開發,除提供資料分析與資訊處理,

也能用於從資料倉儲中獲取空間知識,供決

策分析使用。為回應共同使用者的需求,目

前許多GIS軟體已可提供建置、維護及使用空

間資料倉儲的功能,已促成地理空間資料倉

儲的蓬勃發展,因此空間資料倉儲在政府部

門資料庫環境中擔當GIS執行的整合工作。

什麼是空間資料探勘

(Spatial Data Mining)?

基於廣泛GIS空間資料分析角度來看,

「空間資料探勘」(或稱空間資料採掘)可歸屬

於進階的空間資料分析方法(一般地理資訊系

統的資料探索、簡單統計分析及空間分析方

法,在資料探勘過程中係歸屬於低階的資料

前處理階段)。當越來越多的GIS應用於支援

決策,目前在國際上,網際網路GIS使用者應

用空間資料探勘的技術已明顯成長。

資料探勘或稱之為從資料庫中發現知

識,一般是指從儲存在共用資料倉儲的巨量

資料中,萃取隱藏(事先未知)且有利的資訊

的過程(Han and kamber 2001)。追溯「資料

探勘」一詞,起源於1950年代的資訊科學研

究,電腦首次運用高階統計分析及機械歸納

學習(machine learning:人工智慧科學領域的

一部分)的方法,分析大量的試驗資料集;將

其當作萃取有應用價值資訊,轉換成容易瞭

解知識的新方法。其與傳統的資料分析不同

之處,主要表現在以下3方面:

1. 設計上最明顯的是專對大型資料倉儲內

的成千百萬筆的資料,而且每筆資料

具有上百或上千屬性,以致使用傳統

方法無法進行分析。本質上,資料探

勘過程係針對大量歷史資料集進行二次

分析,企圖發現先前未知的「隱藏」

知識,隱藏知識包括先前未見的形像

樣式(pattern)、關係(relationship)、關連

(association)及趨勢(trend)。

2. 依循資料分析的歸納策略 ( i nduc t ion

strategy),使用者應用各種機器學習演

算法,漸進地從資料中獲取知識,不需

任何前提假定或假設來認定最後何種知

識將會呈現。因此與傳統的推論統計分

析,必須有前提條件及統計假定之演繹

式方法,有明顯差別。

3. 因著重在偵測資料集之中的大量屬性之

間可能的特徵與關連,而不注重個別屬

性明確的因果關係;在特性上以探索與

機率性多於確定及解釋性。

空間資料探勘的目的非止於僅從歷史資

料瞭解過去發生什麼,並能利用機器學習演

算法自動在資料集(dataset)的每筆資料與變數

之間移動(搜尋),藉以揭開可能隱藏或被巨量

複雜的資料所掩蓋的有用資訊,將資訊轉化

為有應用價值且容易瞭解的關連法則知識,

可提供遙感探測影像自動判釋所需的法則知

識。探勘結果所得的相關知識尚能貢獻於智

Page 4: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 201064

林業論壇

慧型空間決策或專家系統的知識庫,有利於

空間決策規劃。此外空間資料採掘的結果也

包含了過去的描述以及對未來洞察的模式,

且有能力連結過去情境去預測未來可能發生

的情境,因而資料探勘成為支援組織策略決

策的一個重要的工具。資料探勘的預測能力

正可支援決策分析應用。

資料探勘過程

資料探勘本身不是單一獨立的過程,而

是一連串為了從特殊資料集中萃取資訊,其

資料處理步驟的邏輯程序詳如圖2,一般包括

5個步驟:

1. 資料整合與清理:剛開始,從不同來源

資料庫中所蒐集的資料,會有多元不一

致性格式,在存入資料倉儲或資料儲存

中心之前,需將錯誤、遺漏值及不一致

的資料予以修正。

2. 資料選取及轉換:本步驟從資料庫中擷

取並轉換成符合特殊資料探勘工作目的

相關資料,轉換包括去常態化、再分類

及聚合(aggregated)等,使之能適用於相

關的資料探勘技術。

3. 資料探勘:本步驟正是應用機器學習、

視覺化技術及統計方法萃取及揭開潛藏

在資料集的資訊之知識發現的過程。

4. 知識發現與建構:本步驟包括對所萃取

圖2資料探勘的知識發現步驟(引自Lo CP 2007;謝漢欽製圖)

Page 5: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 2010 65

林業論壇

資訊加以評估與解釋,經常結合科學視

覺化的技術與圖形顯示介面整合其他資

訊進行建構。技術上主要藉由演繹方法

(deduction method),將所得資訊轉化為

智慧型資訊系的所需的知識,納入其知

識庫;或直接經由文件或報告提供主題

專家及決策者使用。

5. 知識發展(Deployment):最後使用經探

勘後的知識支援科學研究及決策分析。

步驟1及2亦稱之為資料探勘之前處理階

段。有時在資料選取時會加入從分散資料庫以

外的資料,稱之資料增豐(data enrich)。資料

轉換過程包括了多維資料庫結構的建立等。

綜合而言,知識探勘的過程是一不斷地

交談及遞迴的過程,過程中每個階段分析師可

藉助視覺化分析技術的圖形使用介面,透過改

變不同資料參數,控制資料探勘流程,獲得不

同的情境。加上可運用不同探勘技術或替換不

同的演算法,獲取交叉參考知識,以確保一致

且整合的結果。因具有不斷地交談及遞迴的特

性,可允許分析師結合過程中已發掘的知識,

經由交談方式,萃取更高階的知識,進而持續

改進或適化所獲知識。當分析師持續運用此一

過程,直到再沒有感興趣的洞見可以獲得時,

知識發現的過程得以終止。

資料探勘的技術

有關資料探勘技術的類型及技術有很多

種,技術方面可結合高階統計、形像辨識、

人工智慧、時間序列分析,以及科學視覺化

分析技術整合運用。若依其特性區分,可分

為5大類型:分割(segmentation)、相依性分

析(dependency analysis)、離差與異常值分析

(deviation and outlier analysis)、趨勢偵測(trend

detection)及概念化與特徵化(generalization and

characterization);各類型使用的分析技術及簡

單描述摘要如表2;而每一類資料探勘程序皆

可搭配視覺化技術進行互動式分析,藉以萃

取最適化資訊與知識。

綜合簡單說明,現行的資料探勘主要由

歸納式機器學習方法所主導,顧名思義機器是

指電腦本身而言。首先使用學習演算法尋找一

訓練資料集的特徵,然後建立一個模式,將新

資料代入模式以便產生分類、樣式、預測及趨

勢。機器學習可依據人類在探勘程序中需要介

入干預的多寡,簡單地分為監督式(supervised

machine learning)及非監督式(unsupervised

machine learning)機械學習兩大類。監督式又

稱預測式資料探勘(predictive data mining),屬

於問題解決導向,因為須要分析師在心中先確

表2資料探勘類型與技術(引自MillerHJ2001;謝漢欽製表)

資料探勘類型 描述 技術

分割聚類:決定有限個描述資料本身的隱含組類

分類:以預先定義組類來製作分類圖

‧聚類分析‧貝氏分類‧決策或分類樹

‧人工神經網路

相依性分析 運用其他屬性值來尋找能預測某些屬性值的法則 ‧貝氏網路‧關連法則

離差與異常值分析 發現超出預期,表現非常態離差的資料項 ‧聚類及其他探勘法‧異常值偵測

趨勢偵測偵測經常隨時間變化,可用於概述資料庫

的線與曲線‧迴歸分析‧萃取序列樣式

概念化與特徵化 簡潔地描述要探勘的資料 ‧摘要法則‧屬性導向歸納法

Page 6: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 201066

林業論壇

定在資料集中的一個目標或相依屬性,所以稱

之為「監督」。依所選定的演算法在資料間搜

尋(search),企圖偵測出應變數及自變數之間

的樣式(pattern)及關係(relationship)。然後運用

所偵測的樣式及關係建立探勘知識的模式,此

模式可用於預測新資料個體或資料集的行為或

特徵。另方面非監督式又稱為描述式資料探勘

(descriptive data mining),屬於探索導向的資

料探勘,本方法企圖以明確及摘要的方式偵測

出資料集中的資料性質。在探勘方法上,若屬

於非監督類資料探勘的演算法,不需事先假定

或假設標的資料集,企圖從與事先定義目的無

關的資料中,尋找出關連(association)法則、聚

類分類組(clusters)組及樣式的趨勢(trend)變化

等。各類方法的具體內容,將於本文的空間資

料探勘技術一節,再加以說明。

空間資料探勘的特性與挑戰

空間資料探勘起源於傳統屬性導向的資

料探勘,然而地理空間資料隱含相當的複雜

性(主要內容表現在空間相關性、空間異質性

及多尺度相依性三方面),因此與傳統資料探

勘技術與方法上有所差異,在現有的空間資

訊技術發展層面上頗具挑戰性。將其明顯差

別,歸納如下幾個方面:

1. 空間資料探勘涉及二維或三維地理空間

的連續性空間知識,而傳統資料庫之屬

性導向的資料探勘,則僅涉及離散物件

空間的空間知識。

2. 不像屬性導向的資料探勘,空間資料探勘

不只處理數值及類目資料,還延伸至諸如

點、線、面及表面的資料物件(object)上。

3. 空間資料探勘大部分著重在區域(local)

知識的發現,而屬性導向的資料探勘多

屬於全域(global)導向。

4. 空間資料探勘演算法非常依重近鄰(near

neighbor)關係的觀念,即資料物件間的空

間相關的前提特性是無所不在的。而所

謂空間相關或空間自我相關,是指1970年

Tobler的地理學第一定律所言的:「每一

事物與每一事物有關,但事物與距離近的

事物相關性遠大於距離遠的事物」。

5. 空間資料探勘描述項目包括套疊、接

近、交集、鄰接、近鄰等,多屬隱含且

不限定數目,而屬性導向的資料探勘描

述項目包括等於、大於、小於等,多屬

明顯且有限數目。

因為傳統屬性導向的資料探勘演算法經

常無法或難以應用在空間資料探勘上,為了處

理地理空間資料的特性及有效空間資料探勘的

特定需要,舊有的屬性導向的資料探勘方法應

予以修改,並應開發新的資料探勘觀念及技

術,才能達到真正的目的。此外空間資料探勘

不僅需要運用正確的資料探勘的高階技術去發

現有用的空間知識,尚且需要配合具有相當的

地理空間背景知識的分析師進行人機互動式資

料探勘;同時分析師也需要對特定空間資料探

勘工作的特別目的有充分的瞭解。如果忽略處

理這些先前條件、知識及技法,執行錯誤的分

析,從空間資料庫中提供不完整或錯誤的知

識,經常會導致嚴重的後果,不可不慎。

空間資料探勘的技術

如同一般資料探勘技術類型,分析師可

依據知識發現的目的,採取各種適用的空間

資料探勘演算法。將可用於空間資料探勘的

Page 7: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 2010 67

林業論壇

技術歸為7大類,簡述如下:

1. 空間分類(spatial classification)

一般是指可從地理空間資料集中,分析近

鄰資料物件的屬性值及物件之間的空間關

係,以獲取最佳分類準則的相關技術。

2. 空間預測(spatial prediction)

係將屬性導向的迴歸預測方法,推展至

空間資料探勘上。一般採用的迴歸分

析方法包括:通用線性迴歸(generalized

liner model, GLM)、地理加權迴歸分析

(geographic weighted regression, GWR,

本方法可克服空間相關引起的統計假設

不符的問題)及趨勢面分析(trend surface

analysis)。

3. 空間組類/觀念描述(spatial class/concept

description)

本項技術係為建立法則(rules)的簡化過

程,進行簡化時不可避免地會產生資料

漏失,但卻會促成簡單及容易瞭解空間

知識的產生。產生的法則知識可區分成

兩類—

(1) 空間特徵法則:主要描述一組有地理

座標的空間資料物件,例如林地土地

使用型的結構或地景結構等。

(2) 空間判別法則:主要用於差異性比較

或運用於分辨空間物件組類的特徵,

例如不同森林植群型或森林土地利用

型的比較。

4. 空間關聯(spatial association)

有許多的不同的空間描述方法可用來表

達。空間資料集內的空間關聯:位相關

係(如相交、重疊或分離)、空間方位(如

位於東邊、位於左邊)及距離表示(如靠

近或遠離等)。一般在空間資料集內存

在許多個別空間物件之間的空間關聯,

但其中只有少數是真正顯著對分析者有

用。空間關聯程度也可應用空間自相關

(spatial autocorrelaton)來量測,可用於表

達空間數值變數本身與多個同時發生數

值變數之間的關係。也可以使用明顯出

現或靠近同一位置,或同時有兩個以上

的空間物件出現之共位(colocation)關係

來表達。空間關聯知識多以生產式法則

(production rules)呈現,可提供遙測影像

自動化判釋有利的分類知識。也因關聯

法則具有條件機率可信度與及聯合機率

支持度(兩者合稱興趣度),適用於空間

資料推理(reasoning)的量化分析。

5. 空間聚類(spatial clustering)

本項技術應用於發現既定空間資料集內

適合的聚類組數及其分佈的位置;亦可

提供整個空間資料集物件的空間分佈格

局的相關知識。有兩種途徑可達成空間

聚類分析—

(1) 空間資料導向聚類分析:先針對與探

勘工作有關點和面的空間物件,運用

有效的聚類演算法分成若干不同的

聚類組,之後再針對個別聚類組的屬

性,以歸納方法萃取能夠描述空間聚

類一般特性的法則。

(2) 非空間導向聚類分析:專對探勘資料

的物件屬性進行演算,獲得高階觀念

層級的聚類成果,將其當作空間資料

物件進一步聚類分析的基礎。

6. 空間異常值分析(spatial outlier analysis)

所謂的異常值是指資料集的資料物件

Page 8: 談空間資料倉儲及資料探勘的觀念與技術 介紹有關資料倉儲的觀念及資料探勘的技術與 目的,希望能澄清相關觀念,並有利於未來空 間資料庫系統的建立與發展。

林業研究專訊 Vol.17 No.2 201068

林業論壇

屬性值明顯地與資料集中的其他物件屬

性值相差甚大者;如果異常值具有地理

空間位置的空間物件,則屬於空間異常

值。目前實用的空間異常值分析技術係

針對其屬性異常值進行偵測,作為主要

分析的手段。更進一步的分析技術,可

根據其空間物件本身結構特性如:大

小、形狀及特定變化率或與近鄰物件相

互比較,分析其隨時間變遷的量。空間

異常分析方法可分成兩大類—

(1) 形像異常值偵測:以空間視覺化為基

礎,凸顯空間資料異常的位置與成

分,往往異常值就是變化最大最明顯

的空間成分。

(2) 定量異常值偵測:主要應用統計方法

進行檢測,可運用於分辨空間資料物

件屬性明顯與近鄰或資料集中其他物

件之異常偏離程度。

7. 空間時間序列分析(spatial time-series

analysis)

在所有空間資料探勘技術中,空間時間

序列及空間時間分析算是最複雜的技

術。過去的研究案例包括—

(1) 事件導向的空間-時間模式,發展時間

導向觀念層次的空間資料分析模式。

(2) 採用屬於視覺化領域之變遷描述語言

(change description language),用於描

述與空間物件隨時間的變遷。

此外一般所謂的空間趨勢偵測(spatial

trend detection)技術,包括使用近鄰搜尋演算

法,找出空間物件與其近鄰變遷的樣式及趨

勢;此類探勘程序係沿著已定義的近鄰路徑的

連接度進行橫向優先的搜尋,並在每一步驟上

執行統計模式評估;如果評估的趨勢達到顯著

臨界值,則擴展至下一階段的近鄰路徑搜尋。

結語

本文從地理資訊系統空間資料庫的角度

出發,先介紹資料庫倉儲及資料探勘的觀念

與技術,再針對空間資料倉儲及空間資料的

特殊性,論述空間資料探勘技術內涵、侷限

性與挑戰性;企圖以一般資料探勘技術的類

型框架,論及7大類空間資料探勘技術的內

容。事實上,空間資料探勘技術結合空間分

析、高等統計、空間統計、機器學習、形象

辨識、人工智慧,以及科學視覺化技術,目

前仍處於科技研發的起步階段。空間資料倉

儲建置目的不只是一個大型整合圖層資料庫

而已,而在於能透過特殊資料庫結構設計,

提升空間資料庫中巨量歷史資料查詢的效

率、可透過線上分析方法提供初級的決策資

訊,並能作為從資料庫中發掘有用資訊與進

一步知識發現的基礎。空間資料探勘目的在

於能從資料庫中發現隱藏且有價值的資訊,

將其化成轉化人們容易瞭解有應用價值的知

識,此類知識可支援空間策略決策及應用於

解決科學問題上。以地理空間資訊技術發展

而言,可應用於智慧型地理資訊系統分析及知

識驅動的遙感圖像自動判釋。空間資料探勘技

術應用於森林與環境資源專業領域,有待林學

專業人員的專業背景知識與資訊科學領域提供

先進技術,兩者共同攜手合作才能在理論與應

用實務兼顧下,得到實質發展。

(參考文獻請洽作者)