20141018 od meetup #3 lod ecology
DESCRIPTION
20141018 OD meetup #3 LOD Ecology @ IIS, Academia sinicaTRANSCRIPT
從生態資料整合經驗看 LOD 建置
麥舘碩Biodiversity Research Center
Academia Sinica
2
我的背景• 資訊 ( 學士 ) => 自然資源管理 ( 碩士 )• 農委會林業試驗所 2010/03 ~ 2011/07 (LOD Ecology)• 中研院生多中心 2011/09 ~
3
生態學 ?
• 研究生物與非生物環境交互作用的學問
• 子領域非常多• 跨尺度 , 多面向
Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones Ecological Understanding (Second Edition)
4
為何需要資料整合的一些問題• 如何得知氣候變遷對森林碳吸存的影響 ?
• 直接以 eddy covariance 等方式計算特定森林 patch 的碳通量 (CO2 flux)• 由細胞 , 組織 , 器官 , 個體的生化反應上推 (upscaling) 到整個生態系• 能否了解不同尺度下的機制 (mechanism) 與過程 (process)?• ……
• 難以掌握的因子• 均質與否的問題 – 歐美常是整片平坦的針葉純林 , 台灣沒這樣的環境• 氣候可能與生態系物種組成與行為互相影響 ( 棲地被壓縮 / 外來種問題 )• 進而與特定現象 (e.g. 雲霧帶 ) 與干擾發生頻率 (e.g. 森林火災 ) 互相影響• 影響森林結構 , 土壤結構而影響整個物質與能量循環• ……
• 一切都互相關連 , 進而影響• 人類經濟活動• 災害與疾病• ……
5
This image is Andrew Mitchell's work. He's at UrbisJHD in Australia and is in their Knowledge & Information Management organization.
大尺度的研究可能緩不濟急能力 / 資源有限 ( 缺錢 , 缺人 )
能否取得較小尺度且分散的研究資料並整合上推 ?
目標除了理解現狀也要能預測未來
在探索的階段如何有效率地從資料產出資訊 ?
6
來源 1A 牌資料庫
來源 2B 牌資料庫
來源 3XLS / ODS Files 來源 4
CSV / TAB
來源 5DOC / ODT / PDF
Files
來源 6GIS SHP File
來源 7Text in images |||
產出資
訊 /知識
轉檔內容對齊
除錯
I will sue you!!
來源 2XML Files
世界本是如此絕望
7
Data Sharing – Issues
• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用
• 學術倫理 (?)
Open Data 1 star
Metadata
Open Data 3 stars
天龍八不
8
LOD – Linked Open Data
• Open• 就是 Open 的魔力
• Linked Data• 所有東西都要能被明確指涉 , 指涉用的名稱有特定的形式 (use URIs)• 這個形式是依據開放而且普及的 HTTP protocol (HTTP URIs)• HTTP URIs 除了用來指涉特定東西 , 做為一個網址 , 上面也要用開放標準放些有用的內容 ( 如 RDF)
• 內容要包括能連接到其他符合以上原則的東西或內容
9
Data Sharing – LOD
• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用
• 學術倫理 (?)
更容易找到並取用相連的資料提供理解用的脈絡完全一致的存取與使用方式探索更多的可能
10
LOD – 衍生問題•誰跟誰連 ?• 連結的兩頭是什麼 ?• 連結代表什麼關係 ?• 為什麼整體是這樣而不是那樣 ?
•無法回答以上問題的話要怎麼放心使用找到的資料 ?
11
LOD – 其實不是衍生問題而是回歸本質• 解決了資料發現 , 收集 , 轉檔等困難後 , 研究者得以專注於
domain knowledge 與 data間的關係 , 解決 domain 的問題
12
Domain Knowledge
• 特定領域下 / 特定的時空範圍中使用的特定語言與共識•若能被具體地被記錄 /描繪出來 , 內涵就能被檢驗 , 修正 , 信任
• Data standards• Controlled Vocabularies• (Domain) Ontologies
• 被實體化並以 URI 指涉的概念可以連結為任何一種 pattern•實體 / 連結 / 整體 pattern 是否得到 domain knowledge 的支持?•換句話說 , 依此 pattern 組織的 data 是否足以回答 domain 中的問題?• 不行的話 , 是 pattern 出問題 , 還是組織者的 knowledge 有缺陷?
13
生態學 ?
• 研究生物與非生物環境交互作用的學問
• 子領域非常多• 跨尺度 , 多面向
•怎麼找到連結點 ?Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones Ecological Understanding (Second Edition)
14
找出共同的元素 – 生物
其實有的生命形式如 lichens很難界定出個體 , 至今未有定論 , 先不提 Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones
Ecological Understanding (Second Edition)
已找不到原圖源
15
找出共同的元素 – 非生物
地點
時間
其它 ?
借用自 Dongpo Deng 2012
16
從資料的產生方式著手
17
生物族群
2013年
個體數 300隻
生物族群
2014年
個體數 500隻
生物族群
個體數 300隻
merged
個體數 500隻
生物族群
2013的觀察
對象
時間2013年
300隻
生物族群
2014的觀察
對象時間
2014年
500隻
生物族群
2013的觀察
對象時間 2013年
300隻2014
的觀察對象
時間2014年
500隻
個體數
個體數
個體數
個體數
merged
18
腦袋不好使找巨人借個肩膀
• Linked Open Vocabularies (當年還沒有 )
• Swoogle (其實找不太到東西而且做投影片的幾天都連不上 )
• 等等等
19
Extensible Observation Ontology (OBOE)
Common patternDomain knowledge
Madin et. al. 2007. An ontology for describing and synthesizing ecological observation data
20Madin et. al. 2007. An ontology for describing and synthesizing ecological observation data
自己也來試試看 mapping raw data to ontologies
21
Forest
Tree
Obs.
Mes.
Obs.Place B DBH
Mes.
Name
DBHSpecies
7.0sp1
5.6sp2
6.8sp2
CO2 Flux
Wildfiredisturbance
NEE
areaburned
TreeEntity
Mes.
C_Flux Time
Place A
Obs.
Obs.
22
Semantic Sensor Network Ontology (SSN)
Compton et. al. 2012. The SSN ontology of the W3C semantic sensor network incubator group
Design Patterns (部分 )Measurement
CharacteristicProperty
Observation
Observed EntityFeature of Interest
Observation
ValueObservation Value
Sensor
Sensor OutputStimulus
featureOfInterest only
ofEntity 1:1 ofCharacteristic 1:1
isProxyFor only
detects only isProducedBy some
hasValue some
hasValue 1:1
hasPropertysome,only
observedPropertyonly
hasMeasurement0:n
observedByonly
OBOEBOTHSSN
23
感覺頭好壯壯了 ready to go!!請繫好安全帶
24
25
第一步:準備 raw data與 ontologies(RDBMS, CSVs, EML metadata…, etc.)
第二步:將資料轉換為 RDF格式(D2RQ, 手動 )
第三步:將資料載入 RDF倉儲系統並進行 reasoning(Jena, OpenSESAME, OWLIM, Virtuoso…,etc.)
第四步:發布與連結資料(Virtuoso, Pubby, Silk, LIME…,etc)
LOD Ecology 與相連的其他資料集
26
感謝夏禹九 , 林朝欽 , 陸聲山 , 王豫煌四博士的指導與其他同事的支援
在 datahub(當年還叫做 CKAN)註冊metadata
27
282011-09The diagram is maintained by Richard Cyganiak (Insight Centre for Data Analytics at NUI Galway) and Anja Jentzsch (HPI)
CC BY-SA
292014年底的版本已有近 600 個資料集
The diagram is maintained by Richard Cyganiak (Insight Centre for Data Analytics at NUI Galway) and Anja Jentzsch (HPI)CC BY-SA
瀏覽資料 , follow your nose探索相關資料集最直接的方式
30
Content Negotiation給機器看的東西
31
以 SPARQL做為查詢語言SELECT DISTINCT * { ?s1 :p ?o1. ?s1 :q ?o2. ?o2 :r ?o3. ?s2 :s ?s1.}
C
J A
B
G
E
I
D
F H
:p
:q:r:q
K
:s
:r
:s
:p
:t
:t
A
B
G
E
I
:p
:q:r
:s
C
A
B I
:p
:qK
:s
:r
(1)
(2)
Query Possible results
32
查詢可能受某次林火影響的物種
33
Federated geosparql query在地圖上找尋事件 or 物種分布
34
Data discoveryquery the web of data
35
Data discoveryquery the web of data
36
事情其實不總是這麼理想…• 隨便亂 owl:sameAs 會出大包
– 搞不清楚 owl:sameAs兩端語意是不是完全相同時– 搞不清楚 owl:sameAs隱含了什麼意義時– 更多搞不清楚請看下列文章
• When owl:sameAs isn’t the Same: An Analysis of Identity Links on the Semantic Web(http://www.w3.org/2009/12/rdf-ws/papers/ws21)
• Reasoner 會放大 knowledge 與 logic 上出的包37
生物族群
2013年
個體數 300隻
生物族群
2014年
個體數 500隻
生物族群
個體數 300隻
merged(=owl:sameAs + reasoned)
個體數 500隻
生物族群
2013的觀察
對象
時間2013年
300隻
生物族群
2014的觀察
對象時間
2014年
500隻
生物族群
2013的觀察
對象時間 2013年
300隻2014
的觀察對象
時間2014年
500隻
個體數
個體數
個體數
個體數
merged
回顧一下這個
38
包一:兩生綱跟一種藻類植物的屬
39
我們都叫 Amphibia
http://www.tierbildergalerie.com/bild-frosch-zeichnung-6609.htm
已找不到原圖源
包二:同 rank 同學名卻截然不同的東西
40
有一種大蚊 ( 不是蚊子 )跟一種樹都叫做Ormosia formosana !!
有問題的量是包三包海…
41
http://d1thoq83xk1qlh.cloudfront.net/imagepool/48/47/484770/PLIB_484770_B10A26894A184E0BAD1ADC9B88FB2E40.jpg
盲點• 物種是很明確的概念 (X)• 每個物種都有其獨一無二的學名 (X)• 每個學名應該都只會代表一個物種 (X)
42
修正知識上的錯誤並引進更多巨人的肩膀並砍掉重練
43
Darwin-SW: Darwin Core-based terms for expressing biodiversity data as RDFby Steven J. Baskauf and Cambell O. Webb
標本
物種
採集點 原本的 knowledge ( 心虛 )
44
新的目標 ???
Image by Cam Webb
回到開頭的一些問題• 如何得知氣候變遷對森林碳吸存的影響 ?
– 直接以 eddy covariance 等方式計算特定森林 patch 的碳通量 (CO2 flux)– 由細胞 , 組織 , 器官 , 個體的生化反應上推 (upscaling) 到整個生態系
• 難以掌握的因子– 均質與否的問題 – 國外常是整片平坦的針葉純林 , 台灣沒這樣的環境– 微氣候可能與生態系物種組成與行為互相影響– 進而與特定現象 (e.g. 雲霧帶 ) 與干擾發生頻率 (e.g. 森林火災 ) 互相影響– 影響森林結構 , 土壤結構而影響整個物質與能量循環
• 一切都互相關連 , 進而影響– 人類經濟活動– 災害與疾病– ……
有解了嗎沒有
45
Data Sharing – LOD
• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用
• 學術倫理 (?)
其實就還是不夠用
但有感到一絲希望
46
47
http://tw.clipartlogo.com/image/eco-green-watering-icon_114599.html
http://www.w3.org/2009/Talks/0204-ted-tbl/
http://school.discoveryeducation.com/clipart/clip/raincld.html
大家一起
來灌溉吧