ben olken universitas harvard dan j-pal 2...• definisi-definisi: – hasil (y): hasil yang mungkin...
Post on 25-Apr-2018
231 Views
Preview:
TRANSCRIPT
Agenda
I. Permasalahan dalam evaluasi programII. Contoh: suplemen zat besi di Jawa TengahIII. Percobaan teracak IV. Kelebihan dan keterbatasan percobaanV. Seberapa jauh Anda bisa salah: kampanye
“Vote 2002” VI. Kesimpulan
Apakah yang dimaksud dengan Evaluasi Program atau Evaluasi Dampak?
• Evaluasi Program adalah sekumpulan cara yang digunakan untuk menentukan apakah suatu tindakan/ upaya perlakuan atau intervensi ‘berhasil’.
• Contoh: – Apakah pemberian beasiswa dapat meningkatkan kehadiran di
sekolah? – Apakah mengaudit proyek-proyek pembangunan jalan dapat
mengurangi tingkat korupsi?– Apakah pemakaian kelambu dapat mencegah penyakit malaria?
Susunan dasar untuk evaluasi program
• Bagaimana kita menjawab pertanyaan-pertanyaan tersebut?
• Kuncinya adalah dengan menetapkan kontrafaktual.– Suatu Kontrafaktual didefinisikan sebagai “apa yang akan terjadi
apabila tidak ada tindakan/ upaya perbaikan”.
– Kontrafaktual yang sebenarnya tidak dapat diamati – kita tak pernah tahu apa yang akan dialami oleh kelompok yang mendapatkan upaya perbaikan apabila mereka tidak mendapatkan upaya perbaikan, karena mereka telah mendapatkan upaya perbaikan.
– Tujuan utama dari semua metode evaluasi program/dampak adalah untuk menciptakan atau “meniru” kontrafaktual dengan menggunakan beberapa jenis kelompok kontrol
Susunan dasar untuk evaluasi program
• Definisi-definisi: – Hasil (Y): Hasil yang mungkin dipengaruhi oleh tindakan/upaya
perbaikan– Diberi Tindakan (T): Kelompok yang dipengaruhi program– Kontrol (C): Kelompok yang tidak terpengaruh program
• Asumsi utama :– Bila tidak dilakukan upaya perbaikan, maka hasilnya akan sama antara
kelompok yand diuji coba dan kelompok kontrol – Atau, dengan kata lain – kelompok kontrol adalah kontrafaktual
• Maka dampak dari upaya perbaikan itu adalah:– DAMPAK = HASIL (diberi tindakan) – HASIL (kontrol)
Bias Seleksi
• Ingat asumsi utama : – Apabila upaya perbaikan tidak dilakukan, maka hasilnya akan sama
antara kelompok yang mendapatkan upaya perbaikan dan kelompok kontrol
• Apa yang terjadi bila ada penyimpangan dalam asumsi tsb?– contoh, bagaimana jika ada faktor-faktor lain yang tak teramati yang
mungkin mempengaruhi unit-unit yang mendapat upaya perbaikan, namun tidak mempengaruhi unit-unit kontrol?
– faktor-faktor yang tak teramati ini kami sebut sebagai “bias seleksi”. Keberadaan bias seleksi ini tidak terkendali dalam penelitian yang bersifat pengamatan.
– Bila terdapat bias seleksi, maka Anda akan mendapat jawaban yang salah!
• Jawaban = Dampak upaya perbaikan + Bias Seleksi– Bila bias seleksi positif, maka penelitian yang bersifat pengamatan
akan menyatakan dampak upaya perbaikan secara berlebihan; bila negatif, dampak tersebut akan ternyatakan secara tidak memadai.
Contoh-Contoh bias seleksi
• Di dunia nyata, bagaimanakah wujud bias seleksi?• Beberapa contoh bias seleksi:
– Pangan bersubsidi. Masyarakat yang mendapat subsidi makanan (misal: Raskin) lebih miskin daripada mereka yang tidak. Apakah Raskin menjadikan mereka miskin?
– Sekolah. Masyarakat yang menyelesaikan pendidikan jenjang menengahnya berpenghasilan lebih banyak dibandingkan mereka yang keluar sebelum lulus sekolah menengah. Apakah ini pengaruh dari bersekolah? Atau karena mereka yang lebih cerdas mendapat lebih banyak pendidikan? Atau kombinasi di antara keduanya?
– Jalanan. Desa-desa yang mendapat pembangunan jalan dari pemerintah menunjukkan peningkatan dalam penghasilan pertanian. Apakah pembanguan jalan berdampak pada perubahan penghasilan? Atau apakah pemerintah membangun jalan di lokasi-lokasi yang ‘strategis’?
Dua jenis evaluasi dampak1. Evaluasi Teracak:
– Menggunakan undian– misal, lempar koin – untuk menentukan siapa yang masuk dalam kelompok tindakan/ yang mendapatkan upaya perbaikan & siapa yang masuk dalam kelompok kontrol.
– Karena perbedaan antara dua kelompok hanya pada hasil lempar koin, kita tahu bahwa kelompok kontrol memberikan kontrafaktual yang baik dan tidak ada bias seleksi.
Dikenal pula dengan sebutan:• Penelitian Penempatan Teracak• Pengujian Lapangan Teracak• Eksperimen Sosial• Eksperimen Terkontrol Teracak
Jenis-Jenis Metode Evaluasi Dampak (Lanjutan)
2. Metode Non-Eksperimental atau Kuasi-Eksperimental – Metode ini menggunakan pendekatan lain untuk menciptakan
sebuah kelompok kontrol dengan bias seleksi minimum • Contoh:
– Perbedaan Sederhana• Bandingkan hasil dari kelompok tindakan dan kelompok kontrol, di mana
kelompok kontrol tak terpapar pada program karena alasan-alasan eksogen – Perbedaan-dalam-perbedaan
• Bandingkan perubahan dari waktu ke waktu antara kelompok tindakan dan kelompok kontrol
– Penjodohan Statistik• Mengidentifikasi kelompok kontrol berdasarkan faktor-faktor yang tampak
dalam pengamatan– Variabel-variabel Tambahan
• Memprediksi upaya perbaikan sebagai fungsi variabel yang tidak secara langsung berdampak pada hasil yang diminati
• Presentasi ini difokuskan pada metode-metode teracak
Contoh: suplemen zat besi di Jawa
• Latar belakang:– Anemia (kekurangan zat besi) menyebabkan kurangnya energi dan
menurunkan kemampuan orang untuk bekerja– Masalah ini bisa jadi parah di wilayah-wilayah pertanian di mana
masyarakat biasanya makan makanan yang tak diperkaya dengan zat tambahan
• Program: – Program percontohan pengayaan zat besi di Purworejo, Jawa Tengah– Tenaga kesehatan mendatangi rumah tangga dan memotivasi mereka
untuk mengonsumsi pil zat besi satu kali per minggu
• Pertanyaan: apakah program ini memperbaiki kesehatan, meningkatkan kemampuan kerja, dan mengurangi kemiskinan?
waktu
Penghasilan bulanan (Rp100.000)
2002
7
9
2003PROGRAM
(diamati)
(diamati)
Inikah dampak programnya?
Belum tentu!
Apakah dampak programnya?
waktu2002 2003
(diamati)
(apa yang akan terjadi jika tak ada program?)
Kita perlu mengetahui apa yang akan terjadi jika program tidak dilaksanakan
9
7
Penghasilan bulanan (Rp100.000)
waktu2002 2003
(diamati)
X(tidak diamati)
9
7
Dampak: 9 – X
(Apa yang akan terjadi jika tak ada program?)
Kita perlu mengetahui apa yang akan terjadi jika program tidak dilaksanakan
Penghasilan bulanan(Rp100.000)
waktu2002
7
9
2003
(Diamati di antara penerima manfaat)
(Diamati dalam kelompok kontrol)7.9
Dampak: 9 – 7.9 = 1.1
Gagasan: Gunakan kelompok kontrol untuk memperkirakan X
Penghasilan bulanan (Rp100.000)
Apa yang membuat sebuah kelompok kontrol baik/ buruk?
• Apabila terdapat perbedaan antara kelompok peserta dan bukan-peserta
– Misalkan, suplemen zat besi hanya diberikan kepada rumah tangga yang berada dekat Puskesmas
– Dalam hal ini. kelompok yang mendapatkan tindakan tinggal dekat Puskesmas sedangkan kelompok kontrol tinggal jauh dari Puskesmas
Hal ini dapat membiaskan perbandingan …– Rumah tangga itu mungkin berada di wilayah-wilayah
sejahtera, dan mungkin penghasilan untuk rumah tangga tersebut telah meningkat, bahkan tanpa adanya program
Inilah satu contoh “bias seleksi”
waktu2002 2003
Bias Seleksi
Kelompok TindakanPenghasilan bulanan (Rp100.000)
Dampak sesungguhnya: 9 –7.9 = 1.1X (Apa yang akan terjadi bila tak ada program?)
Kelompok Kontrol
waktu2002 2003
Bias Seleksi
Kelompok TindakanPenghasilan bulanan (Rp100.000)
Dampak yang anda perkirakan menggunakan kelompok kontrol yang ‘salah’: 9 – 7 = 2
X
Kelompok Kontrol
Satu solusi … evaluasi teracak
• Dalam hal ini, mereka menentukan rumah tangga mana yang menerima suplemen zat besi, dan mana yang tidak, melalui undian
• Hal ini menciptakan suatu kelompok pembanding yang secara sistematis tidak berbeda dari para peserta – Yaitu,satu kelompok yang tidak mengalami bias seleksi
• Jadi, kelompok kontrol tampak mirip dengan kelompok tindakan, hanya mereka tidak mendapatkan upaya perbaikan
waktu2002 2003
Eksperimen Teracak
Kelompok TindakanPenghasilan bulanan(Rp100.000)
Dampak yang Anda perkirakan jika menggunakan kelompok kontrol yang salah : 9 – 7 = 2
X
Kelompok Kontrol
Dampak sesungguhnya: 9 – 7.9 =1.1
Contoh: Hasil dari penelitian Purworejo
9.36
6.6
7.91
5.5
0
2
4
6
8
10
Laki-laki Perempuan
peng
hasi
lan
Bul
anan
Rp
(100
,000
)
TindakanKontrol
Ketentuan-ketentuan DasarDimulai dengan hal sederhana: • Ambil sampel dari calon peserta program• Secara acak masukkan mereka ke dalam:
– Kelompok Tindakan – mendapatkan upaya perbaikan– Kelompok Kontrol – tidak diperbolehkan untuk mendapatkan upaya
perbaikan (selama masa evaluasi)
• Acak berarti bahwa penentuan suatu kelompok untuk mendapatkan upaya perbaikan atau tidak dilakukan melalui undian:– Dapat diundi lewat komputer– Dapat diundi langsung di tengah masyarakat
• Catatan: penetapan acak terhadap kelompok tindakan dan kelompok kontrol tidak sama dengan pengambilan sampel secara acak
Mengapa penempatan secara acak dapat berhasil?
• Mengapa penempatan secara acak terhadap kelompok tindakan dan kelompok kontrol dapat menghasilkan kontrafaktual yang baik?
• Karena adanya hukum jumlah besar (law of large numbers) …– Dapatkan 200 orang dan kemudian pisahkan mereka secara acak ke dalam
dua kelompok yang masing-masing terdiri dari 100 orang – Dua kelompok memiliki rata-rata tinggi dan berat yang sama– Ini berhasil untuk masyarakat, anak sekolah, perusahaan, sekolah,
kecamatan …– (tidak berhasil apabila Anda hanya memiliki 10 unit yang akan diacak)
• Maka…– Apabila tidak ada upaya perbaikan, kedua kelompok akan sama– Perbedaan satu-satunya antara kelompok tindakan dan kelompok kontrol
adalah dampak upaya perbaikan!
Persiapan Dasar suatu Evaluasi AcakPopulasi Sasaran
Peserta Potensial
Sampel Evaluasi
Populasi Sasaran
Peserta Potensial
Sampel Evaluasi
Penempatan Acak
KelompokTindakan
KelompokKontrol
KelompokTindakan
KelompokKontrol
Peserta hadir Peserta tak hadirBerdasarkan Orr (1999)
Langkah-langkah utama dalam melakukan eksperimen teracak
1. pada kelompok tindakan atau kelompok kontrol2. Rancang penelitiannya dengan seksama
– Apa masalahnya? Apa pertanyaan kunci yang harus dijawab? – Kebijakan apa saja yang mungkin dibuat untuk mengatasi masalah tsb?
3. Kumpulkan data dasar dan secara acak tempatkan orang-orang Verifikasikan bahwa penempatan itu nampak acak
4. Pantau proses sehingga integritas eksperimen tidak diragukan
5. Kumpulkan data lanjutan baik untuk kelompok tindakan maupun kelompok kontrol
6. Perkirakan dampak program dengan membandingkan hasil rata-rata dari kelompok tindakan vs kelompok kontrol
7. Lakukan penilaian apakah dampak program signifikansecara statistik maupun dalam prakteknya
Beberapa variasi atas ketentuan dasar
• Melakukan penempatan ke beberapa kelompok tindakan
• Melakukan penempatan ke dalam unit-unit selain dari individu atau rumahtangga– Pusat Kesehatan– Sekolah– Pemerintahan Daerah– Desa
• Faktor-faktor penting :– Apa unit pengambil keputusannya?– Pada tingkat mana data dapat dikumpulkan?
Validitas
• Dalam menilai setiap penelitian, ada dua jenis masalah yang harus dipikirkan:– Validitas Internal: berhubungan dengan kemampuan untuk
menarik kesimpulan kausal, misalnya, dapatkah kita mengaitkan perkiraan dampak dengan program, dan bukan dengan hal lainnya?
– Validitas Eksternal: berhubungan dengan kemampuan untuk melakukan generalisasi terhadap situasi menarik lainnya, yaitu dapatkah kita mengeneralisasikan perkiraan dampak dari program ini pada masyarakat, waktu, negara lain, dst.?
Kelebihan Utama Pengacakan
• Jauh lebih kuat dalam hal Validitas Internal: – Tidak ada bias seleksi
tidak banyak keraguan bahwa perbedaan yang tampak di antara kelompok tindakan dan kelompok kontrol memang disebabkan oleh program Anda
Kelebihan-kelebihan lain dari eksperimen
• Dibandingkan dengan hasil dari penelitian-penelitian non-eksperimental, hasil-hasil dari eksperimen bersifat:
– Tidak terlalu tunduk pada perdebatan metodologis– Lebih mudah untuk disampaikan– Memiliki kemungkinan yang lebih besar untuk meyakinkan
penyokong dana program dan/ atau pembuat kebijakan
Kekurangan-kekurangan dari Eksperimen
• Meskipun eksperimen-eksperimen memiliki kelebihan metodologis yang besar, terdapat berbagai ancaman terhadap validitas eksperimen. Sebagai contoh,– Validitas Internal
(misalnya Dampak Hawthorne, survei yang tidak mendapat tanggapan, ketidakhadiran peserta, persilangan, bias durasi, dsb.)
– Validitas Eksternal(misalnya, apakah hasil-hasilnya dapat digeneralisasikan terhadap populasi yang diamati?)
• Penting diketahui bahwa beberapa ancaman tersebut juga mempengaruhi validitas dari penelitian-penelitian non-eksperimental
Kekurangan-kekurangan lain dari eksperimen
• Mengukur dampak dari penawaran untuk berpartisipasi dalam program– Tergantung pada rancangannya, dimungkinkan untuk
memahami mekanisme yang mendasari intervensi.
• Biaya (meskipun perlu mempertimbangkan biaya untuk mendapatkan jawaban yang keliru dan biaya-biaya yang lain)
• Ekuilibrium parsial
Kekurangan-kekurangan lain dari Eksperimen
• Masalah Etika– Sebagian besar program dijatahkan karena kurangnya sumber
daya– Proses pemilihan acak merupakan cara yang “adil” untuk
mengalokasikan sumber daya.– Mungkin ada baiknya juga menghapus unsur kebijaksanaan
dalam pengalokasian karena sebab-sebab lain (misalnya, mencegah favoritisme)
– Masuk-bertahap atau proyek percontohan secara alami memberi ruang pada randomisasi
– Mengeksploitasi proyek percontohan atau sisipan oleh sebab keterbatasan anggaran
Kasus 1 – Kampanye “Vote 2002”
• Intervensi yang dirancang untuk meningkatkan tingkat partisipasi pemilih dalam pemilihan umum di A.S. pada tahun 2002
• Panggilan telepon kepada ~60.000 orang• Hanya ~35.000 orang yang berhasil dihubungi• Pertanyaan utama: Apakah kampanye tersebut memiliki
dampak positif terhadap tingkat partisipasi pemilih?– 5 metode digunakan untuk memperkirakan dampak
Metode 1-3
• Berdasarkan perbandingan orang-orang yang berhasil dihubungi dan yang tidak berhasil dihubungi :– Metode 1: selisih dalam tingkat partisipasi pemilih,
(tingkat partisipasi pemilih)berhasil dihubungi – (tingkat partisipasi pemilih)tidak berhasil dihubungi
– Metode 2: Regresi berganda yang mengendalikan beberapa perbedaan di antara kedua kelompok
– Metode 3: Metode 2, namun juga mengendalikan perbedaan perilaku di antara kedua kelompok dalam pemilihan umum yang telah lalu
Perkiraan dampak dengan menggunakan Metode 1-3
Perkiraan Dampak
Metode 1 10.8 pp *
Metode 2 6.1 pp *
Metode 3 4.5 pp *
pp=percentage point (angka presentase); *: secara statistik signifikan pada tingkat 5%
Metode 1-3
Apakah ada dari perkiraan-perkiraan dampak itu yang mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002”?
Yang Berhasil Dihubungi vs. Yang Tidak Berhasil Dihubungi
Berhasil dihubungi
Tidak berhasil dihubungi
Perbedaan
Perempuan 56.2% 53.8% 2.4 pp*Baru terdaftar 7.3% 9.6% -2.3 pp*Dari Iowa 54.7% 46.7% 8.0 pp*
Memberikan suara di thn 2000
71.7% 63.3% 8.3 pp*
Memberikan suara pada di thn 1998
46.6% 37.6% 9.0 pp*
pp= angka presentase *: secara statistik signifikan pada tingkat 5%
Metode 4: Penjodohan
• Terdapat data yang sama tentang 2.000.000 orang
• Pilih sebagai kelompok pembanding suatu sub-kelompok dari 2.000.000 orang yang sedapat mungkin mirip dengan kelompok yang berhasil dihubungi
• Prosedur statistik: penjodohan
• Untuk memperkirakan dampak, bandingkan tingkat partisipasi pemilih antara kelompok yang berhasil dihubungi dengan kelompok pembanding
Perkiraan Dampak dengan Menggunakan Penjodohan
Perkiraan Dampak
Penjodohan pada 4 kovariat 3.7 pp *
Penjodohan pada 6 kovariat 3.0 pp *
Penjodohan pada semua kovariat 2.8 pp *
pp=angka presentase; *: secara statistik signifikan pada tingkat 5%
Metode 4: Penjodohan
• Apakah perkiraan dampak ini mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002?
• Kunci: Kedua kelompok itu harus ekuivalen dalam hal karakteristik-karakteristik yang dapat diamati yang digunakan untuk melakukan penjodohan.
Namun bagaimana dengan karakteristik-karakteristik yang tidak teramati?
Metode 5: Eksperimen Teracak• Ternyata 60.000 orang tersebut dipilih secara acak dari
populasi sebesar 2.060.000 orang• Oleh karena itu, upaya perbaikan ditetapkan secara
acak pada dua kelompok: – Kelompok Tindakan (60.000 orang yang ditelepon)– Kelompok Kontrol (2.000.000 orang yang tidak ditelepon)
• Untuk memperkirakan dampak, bandingkan tingkat partisipasi pemilih antara kelompok tindakan dan kelompok kontrol– Lakukan penyesuaian statistik untuk mengatasi kenyataan
bahwa tidak semua orang dalam kelompok tindakan berhasil dihubungi
Metode 5: Eksperimen Teracak
• Perkiraan dampak: 0.4%, secara statistik tidak signifikan
• Apakah perkiraan dampak ini mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002”?
• Kunci: kelompok tindakan dan kelompok kontrol harus ekuivalen baik berkenaan dengan karakteristik-karakteristik yang dapat diamati maupun yang tidak dapat diamati
• Karenanya, setiap perbedaan dalam hasil akhir dapat dikaitkan dengan kampanye Vote 2002
Tabel Ringkasan
Metode Perkiraan Dampak
1 – Perbedaan Sederhana 10.8 pp *
2 – Regresi Berganda 6.1 pp *
3 – Regresi Berganda dengan data panel
4.5 pp *
4 – Penjodohan 2.8 pp *
5 – Eksperimen Teracak 0.4 pp
Kesimpulan• Kebijakan publik yang baik membutuhkan pengetahuan
akan dampak kausal.• Dampak kausal dapat diperkirakan hanya apabila kita
memiliki kontrafaktual yang baik.• Apabila tidak ada kontrafaktual yang baik, maka analisis
akan terkontaminasi dengan bias seleksi.• Berhati-hatilah dengan klaim kausal yang berasal dari
penelitian-penelitian yang bersifat pengamatan.• Randomisasi menawarkan solusi untuk menghasilkan
kontrafaktual yang baik.
Kesimpulan• Apabila dirancang dan dijalankan secara benar, maka
eksperimen sosial akan memberikan penilaian yang paling dapat dipercaya atas dampak dari suatu program
• Hasil-hasil dari eksperimen sosial mudah dipahami dan dan tidak akan terlalu menjadi obyek keberatan-keberatan metodologis
• Kredibilitas + Kemudahan => lebih mungkin untuk meyakinkan para pembuat kebijakan serta peyokong dana tentang efektivitas (atau kurang efektifnya) suatu program
Kesimpulan (lanjutan)• Namun demikian, kelebihan-kelebihan tersebut hanya
akan didapatkan apabila eksperimen sosial dirancang serta dilaksanakan dengan semestinya.
• Harus menilai validitas eksperimen dengan cara yang sama seperti ketika kita menilai validitas penelitian lain mana pun
• Harus mengetahui kekurangan-kekurangan eksperimen
top related