![Page 1: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/1.jpg)
Temu-Kembali Informasi 201903B: Evaluasi Temu-Kembali Modern
Husni
Husni.trunojoyo.ac.id
Pekan 06
![Page 2: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/2.jpg)
Rekap: Contoh Statistik Kappa
Yes No Total
Yes 300 20 320
No 10 70 80
Total 310 90 400
judge 2 relevance
judge 1 relevance
𝑃 𝐴 =300 + 70
400= 0.925
𝑃 𝐸 =80 + 90
400 + 400
2
+320 + 310
400 + 400
2
= 0.21252 + 0.78782 = 0.665
𝜅 =𝑃 𝐴 − 𝑃(𝐸)
1 − 𝑃(𝐸)=0.925 − 0.665
1 − 0.665= 0.776
2
![Page 3: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/3.jpg)
Rekap: Asumsi dalam Evaluasi IR Klasik
• Asumsi 1
– Kepuasan = Relevansi hasil
• Asumsi 2
– Relevansi = relevansi topik independen
• Dokumen-dokumen dinilai secara independent dan kemudian diranking(itulah cara memperoleh ranking ideal)
• Asumsi 3
– Browsing sekuensial dari atas ke bawah.
3
![Page 4: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/4.jpg)
Rekap: Asumsi dalam Evaluasi IR Klasik
• Asumsi 1
–
• Asumsi 2
–
• Asumsi 3
–
4
![Page 5: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/5.jpg)
Telah diketahui… Evaluasi IR
• Tiga elemen kunci untuk evaluasi IR– Koleksi dokumen (corpus)
– Rangkaian uji dari kebutuhan informasi
– Himpunan penilaian relevansi
• Evaluasi himpunan retrieval tak-berperingkat– Precision/Recall
• Evaluasi himpunan retrieval berperingkat– P@k, MAP, MRR, NDCG
• Signifikansi Statistik– Hindari keacakan dalam evaluasi
5
![Page 6: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/6.jpg)
Pikir Ulang Evaluasi Retrieval
• Tujuan dari suatu sistem IR
– Memuaskan kebutuhan informasi pengguna
• Kriteria ukuran kualitas inti
– “seberapa bagus sistem memenuhi kebutuhan informasipenggunanya.” – wiki
• Apakah evaluasi IR tradisional “qualified” untuk maksud ini?
– Apa yang hilang?
6
![Page 7: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/7.jpg)
Apakah Ketertarikan Pengguna dan Ukuran EvaluasiSejalan? [Sanderson et al. SIGIR’10]
• Pertanyaan penelitian
1. Apakah efektivitas yang diukur pada koleksi tes memprediksipreferensi pengguna untuk satu sistem IR di atas yang lain?
2. Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itubervariasi pada berbagai tugas pencarian dan jenis topik?
3. Jika Ya, apakah kekuatan prediktif bervariasi ketika ukuranefektivitas yang berbeda digunakan?
4. Ketika memilih satu sistem dari yang lain, apa alasan yang diberikanoleh pengguna untuk pilihan mereka?
7
![Page 8: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/8.jpg)
Seting Eksperimen
• Populasi pengguna– Sumber orang banyak (crowd sourcing)
• Mechanical Turk
• 296 pengguna biasa
• Koleksi uji– TREC’09 Web track
• 50 juta dokumen dari ClueWeb09
– 30 topik• Masing-masing menyertakan beberapa sub-topik
• Penilaian relevansi biner terhadap sub-topik
8
![Page 9: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/9.jpg)
Seting Eksperimen
• Sistem IR
– 19 proses pengajuan untuk evaluasi TREC
Pengguna perlu membuat perbandingan sisi-demi-sisi untuk memberikan preferensi merekaatas hasil peringkat 9
![Page 10: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/10.jpg)
Hasil Eksperimen
• Preferensi pengguna vs. metrik retrieval
– Metrik umumnya cocok dengan preferensi pengguna, tidak adaperbedaan signifikan antara metrik.
10
![Page 11: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/11.jpg)
Hasil Eksperimen
• Zoom ke dalam nDCG
– Pisahkan perbandingan ke dalam kelompok-kelompok perbedaankecil dan perbedaan besar
– Pengguna cenderung lebih setuju ketika perbedaan antara hasilperingkat besar
Bandingkan dengan perbedaan rata-rata
11
![Page 12: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/12.jpg)
Hasil Eksperimen
• Bagaimana jika ketika satu sistem tidak meretrieve sesuatuyang relevan
– Semua metrik mengatakan hal yang sama dan sebagian besar sejalandengan pengguna
12
![Page 13: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/13.jpg)
Hasil Eksperimen
• Bagaimana jika kedua system memperoleh hasil relevan pada posisi teratas
– P@10 tidak dapat membedakan perbedaan antar sistem
13
![Page 14: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/14.jpg)
Kesimpulan Kajian Ini
• Metrik evaluasi IR diukur pada suatu koleksi uji untukmemprediksi preferensi pengguna untuk satu sistem IR di atasyang lain
• Korelasi menjadi kuat tatkala perbedaan kinerjanya besar
• Efektifitas dari metrik-metrik berbeda bervariasi.
14
![Page 15: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/15.jpg)
Bagaimana Data clickthrough MencerminkanKualitas Retrieval [Radlinski CIKM’08]
• Evaluasi retrieval berorientasi perilaku pengguna
– Biaya rendah
– Skala besar
– Konteks dan utilitas penggunaan alami
• Praktik umum dalam sistem search engine modern
– Uji A/B
15
![Page 16: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/16.jpg)
Uji A/B
• Dua hipotesis dua sampel (two-sample testing)
– Dua versi (A dan B) dibandingkan, yang indentik kecuali untuk satuvariasi yang dapat mempengaruhi perilaku pengguna
• Contoh, indexing dengan atau tanpa stemming
– Eksperimen teracak
• Pisahkan populasi ke dalam grup-grup berukuran sama– 10% pengguna acak untuk sistem A dan 10% pengguna acak untuk sistem B
• Hipotesis null: tidak ada perbedaan antara sistem A dan B– Z-test, t-test
16
![Page 17: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/17.jpg)
Metriks Berbasis Perilaku
• Tingkat pengabaian (abandonment rate)
– Bagian dari query yang bukan hasil diklik
• Tingkat Reformulasi
– Fraksi Query yang diikuti oleh query lain selama sesi yang sama
• Queries per Sesi
– Jumlah rata-rata Query yang diberikan oleh pengguna selama sesi
17
![Page 18: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/18.jpg)
Metriks Berbasis Perilaku
• Clicks per Query– Jumlah rerata hasil yang diklik untuk setiap query
• Max Reciprocal Rank– Nilai maksimal 1/𝑟, dimana r adalah rank dari hasil berperingkat paling tinggi yang diklik
• Mean Reciprocal Rank
– Nilai rerata σ𝑖 1/𝑟𝑖, penjumlahan terhadap ranking 𝑟𝑖 dari semua klik untuk setiap query
• Time to First Click– Waktu rerata dari query dikeluarkan sampai klik pertama pada hasil apa pun
• Time to Last Click• Waktu rerata dari query dikeluarkan sampai klik terakhir pada hasil apa pun.
18
![Page 19: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/19.jpg)
Metriks Berbasis Perilaku
19
Ketika hasil pencarian menjadi lebih buruk:
![Page 20: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/20.jpg)
Setup Eksperimen
• Filosofi
– Sistem yang diberikan dengan kinerja peringkat relatif diketahui
– Uji metrik mana yang dapat mengenali perbedaan tersebut
Membalikkan pemikiran pengujian hipotesis• Dalam pengujian hipotesis, kita memilih sistem dengan statistik uji• Dalam studi ini, kita memilih statistik uji berdasarkan sistem
20
![Page 21: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/21.jpg)
Mengkonstruksi Sistem Pembanding
• Orig > Flat > Rand
– Orig: algoritma ranking asli dari arXiv.org
– Flat: hapus fitur struktur (dikenal penting) dalam algoritma ranking original;
– Rand: acak kocokan dari hasil Flat
• Orig > Swap2 > Swap4
– Swap2: secara acak memilih dua dokumen dari 5 teratas dan menukarmereka dengan dua dokumen acak dari peringkat 6 hingga 10 (samauntuk halaman berikutnya)
– Swap4: mirip dengan Swap2, tetapi pilih empat dokumen untuk ditukar
21
![Page 22: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/22.jpg)
Hasil Uji A/B
• 1/6 pengguna arXiv.org diarahkan ke masing-masing sistempengujian dalam periode satu bulan
22
![Page 23: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/23.jpg)
Hasil Uji A/B
• 1/6 pengguna arXiv.org diarahkan ke masing-masing sistempengujian dalam periode satu bulan
23
![Page 24: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/24.jpg)
Rekap: apakah preferensi pengguna dan ukuran evaluasisejalan? [Sanderson et al. SIGIR’10]
• Pertanyaan penelitian
1. Apakah efektivitas yang diukur pada koleksi tes memprediksipreferensi pengguna untuk satu sistem IR di atas yang lain?
2. Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksiberbeda di berbagai tugas pencarian dan jenis topik?
3. Jika Ya, apakah kekuatan prediktif bervariasi ketika ukuranefektivitas yang berbeda digunakan?
4. Ketika memilih satu sistem dari yang lain, apa alasan yang diberikanoleh pengguna untuk pilihan mereka?
24
![Page 25: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/25.jpg)
Rekap: Hasil Eksperimen
• Preferensi pengguna vs. metrik pengambilan
– Metrik umumnya cocok dengan preferensi pengguna, tidak adaperbedaan signifikan antara metrik.
25
![Page 26: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/26.jpg)
Reckap: Bagaimana data clickthrough mencerminkan kualitas pengambilan? [Radlinski CIKM’08]
• Evaluasi pengambilan berorientasi perilaku pengguna
– Biaya rendah
– Skala besar
– Konteks dan utilitas penggunaan alami
• Praktik umum dalam sistem mesin pencari modern
– Uji A/B
26
![Page 27: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/27.jpg)
Rekap: Metriks Berbasis Perilaku
27
Ketika hasil pencarian menjadi lebih buruk:
![Page 28: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/28.jpg)
Rekap: Setup Eksperimen
• Filosofi
– Sistem yang diberikan dengan kinerja peringkat relatif dikenal
– Tes metrik mana yang dapat mengenali perbedaan tersebut
Membalikkan pemikiran pengujian hipotesis• Dalam pengujian hipotesis, kami memilih sistem dengan
statistik uji• Dalam studi ini, kami memilih statistik uji oleh sistem
28
![Page 29: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/29.jpg)
Hasil Uji A/B
• Sedikit perbandingan semacam itu signifikan
29
![Page 30: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/30.jpg)
Uji Interleave
• Prinsip desain dari analisis sensorik
– Alih-alih meminta peringkat absolut, menanyakan perbandinganrelatif antara alternatif
• Contoh, apakah A lebih baik daripada B?
– Eksperimen teracak
• Interleave hasil dari (kedua) A dan B
• Memberikan hasil yang saling terkait ke populasi yang sama dan memintapreferensi mereka
• Uji hipotesis atas suara preferensi.
30
![Page 31: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/31.jpg)
Coke v.s. Pepsi
• Penelitian pasar (market)
– Apakah pelanggan lebih suka Coke daripada Pepsi, atau mereka tidakmemiliki preferensi
– Opsi 1: A/B Testing
• Secara acak menemukan dua kelompok pelanggan dan memberikan coke kesatu kelompok dan pepsi ke yang lain, dan bertanya apakah mereka sukaminuman yang diberikan
– Opsi 2: Interleaved test
• Secara acak menemukan sekelompok pengguna dan memberi mereka coke dan pepsi, dan tanyakan pada mereka yang mana yang mereka sukai
31
![Page 32: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/32.jpg)
Interleave untuk Evaluasi IR
• Team-draft interleaving
32
![Page 33: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/33.jpg)
Interleave untuk Evaluasi IR
• Team-draft interleaving
Ranking A:
Ranking B:
2 3
1 2
1 4
5 3
5 7
6 8
8 6
7 4
Interleaved ranking
RND = 0
1 2
1
3 5
1
4 6
33
![Page 34: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/34.jpg)
Hasil Uji interleaved
• 1/6 pengguna arXiv.org diarahkan ke masing-masing sistempengujian dalam periode satu bulan
– Uji kelompok mana yang menerima lebih banyak klik
34
![Page 35: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/35.jpg)
Kesimpulan
• Tes interleaved lebih akurat dan sensitif
– 9 dari 12 percobaan sesuai dengan harapan
• Hanya jumlah klik yang digunakan dalam tes yang disisipkan(interleaved) ini
– Lebih banyak aspek dapat dievaluasi
• Misalnya dwell-time, peringkat timbal balik, jika mengarah untuk mengunduh, apakah klik terakhir, apakah klik pertama
• Interleave lebih dari dua sistem untuk perbandingan
35
![Page 36: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/36.jpg)
Membandingkan sensitivitas metrik pencarianinformasi [Radlinski & Craswell, SIGIR’10]
• Seberapa sensitif metrik evaluasi IR itu?
– Berapa banyak pertanyaan yang dibutuhkan untuk mendapatkanhasil perbandingan yang percaya diri?
– Seberapa cepat dapat mengenali perbedaan antara sistem IR yang berbeda?
36
![Page 37: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/37.jpg)
Setup Eksperimen
• Sistem IR dengan efektivitas pencarian yang dikenal
• Kumpulan besar corpus beranotasi– 12 ribu query
– Setiap dokumen yang diambil dilabeli ke dalam level 5 grade
• Kumpulan besar klik pengguna nyata dari mesin pencarikomersial utama
• Pendekatan– Tingkatkan ukuran Query evaluasi secara bertahap untuk menyelidiki
kesimpulan dari metrik
37
![Page 38: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/38.jpg)
Sensitifitas NDCG@5
Efektifitas: A>B>C
38
![Page 39: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/39.jpg)
Sensitifitas P@5
Efektifitas sistem: A>B>C39
![Page 40: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/40.jpg)
Sensitifitas interleaving
40
![Page 41: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/41.jpg)
Korelasi Metriks IR dan interleaving
41
![Page 42: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/42.jpg)
Bagaimana Mengases Kualitas Hasil Pencarian?
• Evaluasi relevansi tingkat Query
– Metrik: MAP, NDCG, MRR, CTR
• Evaluasi kepuasan tingkat tugas
– Kepuasan pengguna dari seluruh tugas pencarian
Q1 Q2 Q3 Q4 Q5
D21
D24
D31 D51
D54
START END
Sasaran: temukan karya yang ada untuk "prediksi kepuasan pencariantingkat tindakan“
42
![Page 43: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/43.jpg)
Contoh Tugas Pencarian
• Kebutuhan informasi: find out what metal can float on water
Search Actions Engine Time
Q: metals float on water Google 10s
SR: wiki.answers.com 2s
BR: blog.sciseek.com 3s
Q: which metals float on water Google 31s
Q: metals floating on water Google 16s
SR: www.blurtit.com 5s
Q: metals floating on water Bing 53s
Q: lithium sodium potassium float on water Google 38s
SR: www.docbrown.info 15s
quick back
query reformulation
search engine switch
43
![Page 44: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/44.jpg)
Selain DCG: Perilaku User sebagai Predictor KeberhasilanPencarian [Ahmed et al. WSDM’10]
• Memodelkan perilaku pencarian sekuensial pengguna denganmodel Markov
– Model untuk pola pencarian yang sukses
– Model untuk pola pencarian yang tidak berhasil
ML untuk estimasi parameter pada data set beranotasi
44
![Page 45: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/45.jpg)
Memprediksi Kepuasan Pengguna
• Pilih model yang lebih baik menjelaskan perilaku pencarianpengguna
– 𝑃 𝑆 = 1 𝐵 =𝑃 𝐵 𝑆 = 1 𝑝 𝑆=1
𝑃 𝐵 𝑆 = 1 𝑝 𝑆=1 +𝑃 𝐵 𝑆 = 0 𝑝 𝑆=0
Sebelumnya: kesulitantugas ini, atau keahlianpencarian pengguna
Kemungkinan: seberapa baik model menjelaskan perilaku pengguna
Kinerja prediksi untuk kepuasan tugas pencarian
45
![Page 46: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/46.jpg)
Yang harus diketahui…
• Metriks evaluasi IR biasanya sejalan dengan preferensi hasilpengguna
• Uji A/B vs. Uji interleaved
• Sensitifitas dari metrik evaluasi
• Evaluasi langsung dari kepuasan pencarian
46
![Page 47: Temu-Kembali Informasi 2019...Jika kekuatan prediksi seperti itu ada, apakah kekuatan prediksi itu bervariasi pada berbagai tugas pencarian dan jenis topik? 3. Jika Ya, apakah kekuatan](https://reader030.vdocuments.pub/reader030/viewer/2022040516/5e75f1daa7cc2a2b50013160/html5/thumbnails/47.jpg)
PERTANYAAN?
Terimakasih!
47