how to deal with messy data?
TRANSCRIPT
Hogyan bánjunk zűrös adatainkkal:
standardizált abundancia index
alkalmazása elterjedési modellekben
Sólymos Péter
2014 május 16 | Biometria Konf.| Budapest
Észlelési hiba és elterjedési modellek
UdeM Seminar – March 24, 2014 2
A lokális vizsgálatok után a nagy léptékű modellezéskor
is fontos lehet az észlelési hiba korrekciója
Mi az az észlelési hiba?
3
Lombhullató erdő Fenyves
N=6 N=3
Mi az az észlelési hiba?
4
Lombhullató erdő Fenyves
N=6 Y=2 p=0,33
N=3 Y=2 p=0,66
Mi az a pontszámlálás?
• Idő intervallumok
• Távolság intervallumok
5
idő int.
távolság int.
detektálás
5
0–3 3–5 5–10 minutes
0–50 50–100 >100 m
Mi az a pontszámlálás?
• Idő intervallumok
• Távolság intervallumok
6
idő int.
távolság int.
detektálás
2
1
1
6
0–3 3–5 5–10 minutes
0–50 50–100 >100 m
Mi az a pontszámlálás?
• Idő intervallumok
• Távolság intervallumok
7
idő int.
távolság int.
detektálás
2 3
1 3
1 1
7
0–3 3–5 5–10 minutes
0–50 50–100 >100 m
Mi az a pontszámlálás?
• Idő intervallumok
• Távolság intervallumok
8
idő int.
távolság int.
detektálás
2 3 2
1 3 3
1 1 1
8
0–3 3–5 5–10 minutes
0–50 50–100 >100 m
Boreal Avian Modelling (BAM) Project
9
Naprakész és teljes adatbázis összeállítása és fenntartása a tajga biom madarairól és azok élőhelyeiről.
www.borealbirds.ca
~130 ezer helyszín ~200 ezer felvétel
Ahány ház annyi szokás
• Idő és távolság intervallumok: – információt adnak az
észlelési folyamatról.
• Nem standardizált felvételek: – eltérő idő intervallumok,
– eltérő távolság intervallumok,
– 53 protokoll az adatbázisban.
• Sok-sok pénzbe kerültek az adatok az elmúlt 20 évből, kár volna egy részüket figyelmen kívül hagyni!
10
# idő int.
# távolság int.
felvétel %
1 1
>1 >1
1 >1
1 >1
75% 1%
12% 12%
A megfigyelés folyamata
11 11
0–50 50–100 >100 m
q
0
1
q(r=50)
q(r=100) q(r=∞)
Detection distance (m)
q(r): egy egyed észlelésének valószínűsége r sugarú körön belül, feltéve hogy dalolt.
0–3 3–5 5–10 perc
p
0
1
p(t=3) p(t=5)
p(t=10)
Idő (perc)
p(t): annak a valószínűsége, hogy egy egyed dalol a t idő intervallumban.
Eltávolításos mintavétel
12 12
p
0
1
„Éneklési” ráta
Idő (perc)
q
0
1
Távolság (m/100)
Effektív Detektálási Rádiusz
Denzitás becslés
13
E[𝑌𝑖𝑗]=𝑁𝑖𝑗 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗
E[𝑌𝑖𝑗]=𝐷𝑖𝑗 𝐴𝑖 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗
A mintavételi terület ismert:
𝐷 𝑖𝑗=𝑌𝑖𝑗/{𝐴𝑖 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗}
Denzitás becslés
14
E[𝑌𝑖𝑗]=𝑁𝑖𝑗 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗
E[𝑌𝑖𝑗]=𝐷𝑖𝑗 𝐴𝑖 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗 E[𝑌𝑖𝑗]=𝐷𝑖𝑗 𝐴 𝑖 𝑝 (𝑡)𝑖𝑗 1
A mintavételi terület ismert: Terület nagysága nem ismert:
𝐷 𝑖𝑗=𝑌𝑖𝑗/{𝐴𝑖 𝑝 (𝑡)𝑖𝑗 𝑞 (𝑟)𝑖𝑗} 𝐷 𝑖𝑗=𝑌𝑖𝑗/{𝐴 𝑖 𝑝 (𝑡)𝑖𝑗 1}
𝐴 𝑖= 𝜋𝜏 2
Mire ez a sok hűhó? 15
Global Forest Watch Canada 2014
16
Tájkép szimuláció és klímaváltozás (tüzek gyakoribbá válása): a populációk méretének növelése (helyreállítása) nem reális célkitűzés.
Célkitűzés: 140%
Összegzés
17
Feltételes likelihood becslés 𝜑, 𝜏
y3,y5,y10
y
p,q x
Modell 𝑌𝑖 𝑁𝑖 , 𝑝𝑖 , 𝑞𝑖 ~ Poisson(𝐷𝑖𝐴𝑖𝑝𝑖𝑞𝑖)
log(𝐷𝑖) = α+β 𝑥𝑖
Modell paraméter becslés és megbízhatóság
Predikciók: - elterjedési térkép, - élőhely asszociáltság, - populáció méret, - előrejelzés.
Megfigyelés Offszet Prediktor
detect R csomag
GLM, GLMM, BRT, LASSO