social media dan crowdsourced data perspektif …
TRANSCRIPT
Seminar Nasional Toponim – Bandung, 25-06-2013 1
SOCIAL MEDIA DAN CROWDSOURCED DATA
PERSPEKTIF BARU PEMANFAATAN TOPONIMI
Dr. Ade Komara Mulyana
Pusat Pemetaan Rupabumi dan Toponim
Badan Informasi Geospasial
Biodata
Dr. Ir. Ade Komara Mulyana
Tasikmalaya, 21 Agustus 1969
Kepala Bidang Pemetaan Rupabumi Skala Besar, Pusat
Pemetaan Rupabumi dan Toponim, Badan Informasi Geospasial
Pendidikan:
S1/S2: Geodetic Engineering, Delft University of Technology (TU Delft),
The Netherlands
S3: Geomatics Engineering, School of Civil Engineering, Purdue University,
USA
0813-19879732
2
Apalah arti sebuah nama? Manfaat Data Toponim untuk UNOCHA
Social Media dan Crowdsourced Data
Social Media: sarana berinteraksi dalam bentuk
pembuatan, penggunaan bersama dan pertukaran
informasi dan pendapat di komunitas virtual dan
jaringan.
Crowdsourced Data: data yang dihasilkan dari
kontribusi/partisipasi banyak orang, khususnya
komunitas online. Terkait toponim:
Un-authorized Digital Gazetteer
Seminar Nasional Toponim – Bandung, 25-06-2013 2
Contoh toponim di social media
Terdapat banyak informasi di dunia maya yang
dapat menjadi indikator suatu kejadian/fenomena
Sifat informasinya conversational:
Singkat
Informal
Imprecise
Subjective
Ambiguous
Geoparsing
Pengenalan bahasa spasial dalam sebuah teks
Sebuah aplikasi spesifik NERC (Named Entity
Recognition and Classification)
Dikenal juga dengan istilah geotagging,
georecognition, toponym recognition
Permasalahan utama: ambigu dalam nama
Ambiguity
Geo/Non Geo
• Paris: Paris ibukota Perancis atau Paris Hilton?
• Anan: Sungai Annan atau Kofi Annan?
Geo/Geo
• Amsterdam: Ibukota Belanda atau kota di negara bagian New York, AS?
• Ciawi: kecamatan di Kab. Bogor atau di Kab. Tasikmalaya?
Ambiguity
Metoda Geoparsing
Pencarian di Gasetir (basis data toponim)
Rule based:
Penentuan apakah suatu nama adalah toponim
atau bukan didasarkan kepada aturan (rules)
dalam domain bahasa tertentu. Misalnya:
kota/kabupaten/kecamatan/desa ........
di C...........
dsb.
Machine learning based
Seminar Nasional Toponim – Bandung, 25-06-2013 3
Gasetir Digital
Penghubung antara dunia manusia yang informal (penggunaan
nama dalam kehidupan sehari-hari) dengan dunia geospasial
yang formal yang memiliki sistem baku dalam penentuan posisi
di bumi
Kunci dalam proses geoparsing dan geocoding (Spatial
Identifier)
Isi minimal sebuah gasetir: NFT
N : Name
F : Footprint (representasi posisi geografis)
T : Type (kategori, kelas fitur)
Contoh Gasetir di internet: Geonames
dan Yahoo! Geoplanet
GeoNames.org Yahoo! GeoPlanet
Places/Toponyms 7,069,291 5,332,310
Aliases/Alternate
Names 2,928,296 1,950,735
Neighbors n/a 8,521,075
Size (all files,
unzipped) 882M 504M
Kondisi 2010
Crowdsource Data: Wikimapia
Link
Monitoring dan pengumpulan data
dari Social Media
Social Media digunakan untuk mendapatkan data untuk misalnya:
Aktivitas pasca bencana
Kepentingan politik (mis: mengukur tingkat kepuasan terhadap kinerja Barrack Obama)
Deteksi awal konflik sosio-ekonomi
Global Pulse: program inovatif dari PBB untuk melacak dan memonitor informasi dengan lebih cepat terkait krisis sosio-ekonomi baik di tingkat lokal maupun global
Global Pulse
Program inovatif dari PBB untuk melacak dan memonitor informasi terkait krisis sosio-ekonomi baik di tingkat lokal maupun global secara lebih cepat
Melengkapi data yang didapatkan dari survey dan sensus atau cara-cara pengumpulan data statistik lainnya yang tradisional
Melacak informasi dari sumber-sumber online seperti blog, media sosial (Twitter dan Facebook), situs berita, situs lowongan kerja, situs jual beli online
Implementation Strategy: Network of Pulse Labs (di Indonesia PLJ)
PLJ Research Results:
Twitter Users Posts on Food Price Rise in
Indonesia
Published via web widget
Seminar Nasional Toponim – Bandung, 25-06-2013 4
PLJ Research Results:
Twitter Users Posts on Fuel Price Rise in
Indonesia
Published via web widget
PLJ Research Results:
Sentiment Analysis on Food Price Rise in
Indonesia (2013)
PLJ Research Results:
Sentiment Analysis on Fuel Price Rise in
Indonesia (2013)
PLJ Research Results: Geolocating Tweets
1st Iteration Using Twitter Location Profile
Sample Data: July– August 2012 (Food Price Rise Spike– Tempe/Tofu/Soybean crises)
Total data examined: 32,842 (100%)
Process Framework:
>> Geolocating using Twitter API
>> Data Cleansing using Geoname services (www.geonames.org)
Result:
Empty text in location profile: 13,147 (40.03%)
Text in location profile is simply "Indonesia" (there is no way to mine province location information): 2,031 (6.18%)
Text in location profile is recognized as invalid location:6,800 (20.71%)
note: current analysis marks any location outside Indonesia as invalid
Text in location profile is recognized as valid location and we can extract province information: 10,864 (33.08%)
Potential use of SIRF for
extending search criteria
PLJ Research Results: Geolocating Tweets
1st Iteration Using Twitter Location Profile
Location Distribution of Twitter Posts
“Food Price Rise” July – August 2012
Iphone vs HP Android berdasarkan
geotagged tweets
Washington, DC:
Merah: pengguna Iphone
Hijau: pengguna Android
developed by Gnip, MapBox
Seminar Nasional Toponim – Bandung, 25-06-2013 5
Pengguna Blackberry
New York City:
Merah: pengguna Iphone
Hijau: pengguna Android
Ungu: pengguna Blackberry
Blackberry di Jakarta
Jakarta:
Merah: pengguna Iphone
Hijau: pengguna Android
Ungu: pengguna Blackberry
Kesimpulan
Informasi toponim banyak didapatkan di media
sosial, situs penyedia informasi geospasial, situs
gasetir, maupun situs-situs lainnya
Gasetir sangat diperlukan untuk menjadi spatial
identifier (proses geoparsing dan geotagging)
terhadap informasi tersebut.