運用dbscan演算法與 google maps於大於大 物量 ... · 運用dbscan演算法與 google...

28
運用 DBSCAN 演算法與 GOOGLE MAPS 於大 種出 現紀錄之研究 賴昆祺 1 、陳岳智 1 、李祐陞 2 、邵廣昭 1 1.中央研究院 生物多樣性中心 2. 中央研究院 資訊科技創新研究中心 2011/10/18

Upload: others

Post on 22-Aug-2020

15 views

Category:

Documents


0 download

TRANSCRIPT

  • 運用DBSCAN演算法與GOOGLE MAPS於大量物種出於大 物

    現紀錄之研究

    賴昆祺1、陳岳智1、李祐陞2、邵廣昭1

    1.中央研究院生物多樣性中心2. 中央研究院資訊科技創新研究中心

    2011/10/18

  • 台灣生物多樣性資訊機構TaiBIF (Taiwan Biodiversity Information Facility)

    「全球生物多樣性資訊機構(GBIF)」台灣的節點(NODE),以整合生物多樣性資料與國際交流點(NODE) 以整合生物多樣性資料與國際交流為首要目標含物種名錄,專家名錄,物種基本解說,圖片,特有含物種名錄 專家名錄 物種基本解說 圖片 特有種,外來入侵種,台灣陸域與海域生物分布、文獻資料、標本紀錄、環境資訊,及相關出版物…等等資料其中又以物種出現原始紀錄(簡稱物種出現紀錄)整合最為重要

  • 物種出現紀錄物種出現紀錄

    物種出現紀錄包含博物館動物標本、植物標本、生態調查與物種觀察等資料。共有8個資料提供者、27個資料集(dataset)、150萬筆物種出現記錄(80%以上的資料具有地理座標)料具有地理座標)

  • 研究動機(1)

    過多的點

    研究動機(1)

    過多的點不易表達地圖所代表的資訊(資訊被隱含)

    原始物種分布呈現

    隱含)Google Map呈現速度慢。

    原始始的採集集記錄

    「巒大秋海棠」之點分布圖(約300點)

  • 研究動機(2)( )之前研究解決大量資料呈現的方法

    利用網格呈現 隨著不同的比例尺而利用網格呈現物種分布

    隨著不同的比例尺而有不同網格大笑

    原始物種分布呈現

  • 研究動機(3)空間知識探索研究動機(3)空間知識探索

    空間知識探索(Geospatial

    利用分群的演算法找出相似的「群」

    原始物種分布呈現

    ( pKnowledge Discovery)則經由資料挖掘的方式對資料挖掘的方式對大量資料進行分析,其中一個常用的方法為空間資料聚類法為空間資料聚類分析(Cluster Analysis),透過不同的聚類分析可以同的聚類分析可以更清楚地發現空間資料之特性

  • 研究動機(4)生物多樣性資訊學研究動機(4)生物多樣性資訊學

    生物多樣性資訊學(Biodiversity informatics)乃利用資訊科學及資料庫管理技術將生物多樣性的資料予以蒐集、整合、分析,以掌握生物多樣性之變遷生物多樣性之變遷

    DwC+

    DBSCAN Google Map

    TAPIR

  • 研究方法(1)資料整合

    Darwin core 1.4 英文中央研究院

    英文資料

    林務局

    TAPI特生中心

    合作單位

    TAPIR

    台灣大學位

    中文

    科學博物館Darwin core 1.4(中文欄位)

    中文資料

    ….(中文欄位)

    +自訂欄位 8

  • 何謂聚類分析?何謂聚類分析?

    聚類演算法是資料挖掘方法之一,其目的乃希望在一大群資料中找出若干的群聚(Clusters),以使群聚內之相似度高、群聚間之相似度低等特性。通常利用簡單的空間距離計算公式通常利用簡單的空間距離計算公式,透過衡量資料點間距離的遠近來判斷彼此間的相似程度彼此間的相似程度

    曼哈頓距離(Manhattan distance)

    歐幾里得距離(Euclidean distance)

  • 研究方法(2)聚類演算法研究方法(2)聚類演算法

    常見的演算法如下:切割法(Partitioning methods)

    K 演算法K-means 演算法階層式方法(Hierarchical methods)

    BIRCH演算法密度式方法(Density-based methods)

    DBSCAN演算法網格式聚類方法(G id b d th d )網格式聚類方法(Grid-based methods)

    STRING演算法

  • 密度式方法密度式方法

    主要概念利用資料點間密度(density)關係來聚類分析( y)

    將資料集合中較密集的資料視為一個群集;運用密集度的方法不但可用來濾除雜訊(noises)或偏離值(outliers) ,且可對任意形狀之群可用來濾除雜訊(noises)或偏離值(outliers) ,且可對任意形狀之群集進行分群

    11

  • 研究方法(3)DBSCAN演算法研究方法(3)DBSCAN演算法

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

    兩個參數:

    Eps:鄰近區域的半徑p

    MinPts:存在於該鄰近區域的最小點數只要在鄰近區域的半徑(Eps)內之資料點數大於MinPts 即形成群只要在鄰近區域的半徑(Eps)內之資料點數大於MinPts,即形成群聚

    p

    q

    MinPts = 5

    Eps = 1 kmp 屬於 NEps(q)Eps

  • 研究方法(3)DBSCAN演算法(續)研究方法(3)DBSCAN演算法(續)

    (1)直接密度可達(Directly density-reachable)。(2)密度可達(Density-reachable) q點透過p1點可到p點;(3)由其他的點達到密度連接(Density-connected),P點可由o點直接密度可達,及q點可由o點直接密度可達;

    p p q

    qp1 o

  • 系統架構系統架構

  • 系統流程架構系統流程架構

    輸入物 設定輸入物種科名、或單一

    設定MinPts與

    分群計算(DBSCAN)

    Convex hull

    物種名稱

    與EPS

    (DBSCAN) (quick hull)

    Google MapInput Map

  • 系統流程架構系統流程架構

    輸入物 設定輸入物種科名、或單一

    設定MinPts與

    分群計算(DBSCAN)

    Convex hull

    物種名稱

    與EPS

    (DBSCAN) (quick hull)

    Google InputMap

    設定的參數 : MinPts 與 EPS

  • 系統流程架構第一群 第一群數量

    系統流程架構

    121.6702778 24.54472222 121 6480556 24 2325

    輸入物 設定

    121.6480556 24.2325 121.7377778 24.37638889 121.65 24.31 121.76 24.45輸入物

    種科名、或單一

    設定MinPts與

    分群計算(DBSCAN)

    Convex hull

    data 121.76 24.45 /data .....

    121.8225 24.47833333

    物種名稱

    與EPS

    (DBSCAN) (quick hull)121.7275 25.01916667 121.86 24.57 121.82 24.51

    Google Input

    121.78 24.98 ....

    Map121.5344444 24.86277778 121.5280556 24.48972222 121.5427778 24.86305556

    d t 121 5738889 24 82333333 /d t121.5738889 24.82333333 121.5163889 24.63416667 ...

  • 系統流程架構系統流程架構

    輸入物 設定輸入物種科名、或單一

    設定MinPts與

    分群計算(DBSCAN)

    Convex hull

    物種名稱

    與EPS

    (DBSCAN) (quick hull)

    Google InputMap

  • CONVEX HULL ALGORITHM (QUICK (HULL)

    在平面點集合中座標最小與最大值,分別標記A與B ,畫成一直線畫成 直線B尋找AB線段兩側之點集合,找出C與D點,分別

    C

    距離AB線段最遠,再將AB線段取消,此時的邊界為ADBC

    AD

  • CONVEX HULL ALGORITHM (QUICK (HULL)

    在平面點集合中座標最小與最大值,分別標記A與B ,畫成一直線

    C畫成 直線B尋找AB線段兩側之點集合,找出C與D點,分別距離AB線段最遠,再將AB線段取消,此時的邊界為ADBC

    依據AD、DB、BC、CA四個線段往外延伸分別找出距離這四個線

    DA

    分別找出距離這四個線段最遠的點,形成新的邊界

    如此重複,當任一線段找不到任何一點時,此邊界即為包含原本點集合之凸多邊形

  • 系統展示系統展示

  • 藉由不同的EPS與MINPTS進行鯉科魚類之聚類分析

    Eps =5公里; Eps =4公里; Eps =3公里;pMinPts=15結果=3群

    MinPts=15結果=7群

    Eps 3公里; MinPts=15結果=6群

  • 以台灣鯉科分布為例以台灣鯉科分布為例无法显示图像。计算机可能没有足够的内存以打开该图像,也可能是该图像已损坏。请重新启动计算机,然后重新打开该文件。如果仍然显示红色“x”,则可能需要删除该图像,然后重新将其插入。

    台灣河川淡水魚類之動物地理區域之分布(陳義雄與方力行, 1999)

    DBSCAN分析法 (Eps=0.04 MinPts=11)

  • 台灣西部海域近岸底棲魚類群聚之研究台灣西部海域近岸底棲魚類群聚之研究

    陳孟仙1、陳志遠2、潘儀庭1*、吳欣儒1、陳煦森11. 國立中山大學海洋生物科技暨資源學系2. 國立高雄海洋科技大學海洋環境工程系2. 國立高雄海洋科技大學海洋環境工程系

    本研究在2006~2008年間,利用海洋研究船在台灣西部沿海六測站,深度15~30米之海域,進行10航次67網次的底拖採樣,共捕獲41科深度15 30米之海域 進行10航次67網次的底拖採樣 共捕獲41科77屬127種的魚類(含兩種未知種),豐度介於0.05至146.20 ind./1000 m2之間。各站的優勢魚種不盡相同,茄萣為黑邊鰏,七股為大鱗鮃,台西、王功及觀音皆為斑鰭白姑魚,淡水則以舌鰨為最優勢種。利用各測站魚種豐度進行群集分析,可明顯區分為南北兩群集,分別是北群集的淡水、觀音、台西和王功以及南群集的七股及茄萣。造成台灣西部海域底棲魚類分為兩大群的主要魚種及貢獻度(%),依序為大鱗鮃(11 05%) 細羊舌鮃(10 14%) 大頭花桿狗母(7 95%)序為大鱗鮃(11.05%)、細羊舌鮃(10.14%)、大頭花桿狗母(7.95%)、斑鰭白姑魚(7.83%)、黑邊鰏(6.73%)及大鱗短額鮃(4.85%)。此魚類群聚的差異,可能受到此海域季節性的海流轉變所影響,並以七股為界分成南北兩群。界分成南北兩群。

    2010臺灣水產學會論文發表會

  • 「大頭花桿狗母 分群的結果:南北分群「大頭花桿狗母」分群的結果:南北分群

  • 多邊形裁切示意演算法多邊形裁切示意演算法

  • 謝謝聆聽謝謝聆聽

    27

  • 多邊形裁切示意圖多邊形裁切示意圖