jak pozyskać wiarygodne dane o zjawiskach społecznych z internetu?
DESCRIPTION
Prezentacja Radosława Nieleka z Informatyki Społecznej podczas drugiego spotkania Social Impact w dniu 30 czerwca 2010 roku.TRANSCRIPT
Jak pozyskać wiarygodne dane o zjawiskach społecznych z Internetu?
Radosław Nielek,[email protected],
Warszawa, 30.06.2010 r.
Czego szukamy?
„Zjawisko społeczne – zjawisko, fakt społeczny czy proces który istnieje, powstaje i zmienia się w czasie dzięki działaniom zbiorowości społecznych lub grup społecznych. Może występować jedynie w odczuciu przedstawicieli danej społeczności (nie mieć charakteru obiektywnego).”
Wikipedia
Przykładowe zjawiska społeczne w Internecie
• Wojny edycyjne na Wikipedii,• Spirala nienawiści (agresji) w komentarzach na
allegro,• Rozprzestrzenianie się memów w sieci,• Free-riders w sieciach P2P i systemach
reputacyjnych,• 0.5% negatywnych komentarzy na Allegro i
eBay-u,
Źródła danych
• Crawlowanie dostępnych serwisów,– Widzimy to co widzą internauci (z wyjątkiem
personalizacji),– Bariery: deep web i formularze (wyszukiwanie, wybór),
niektóre technologie (AJAX, JavaScript, Flash),– Brak wielu istotnych informacji (np. czas – można
uzyskać porównując różne przy częstym crawlowaniu),– Problem z czyszczeniem danych (spam
wyszukiwarkowy, strony generowane przez automaty, fragmenty strony – np. reklamy),
– Wydajność przestała być problemem
Źródła danych• Dane pozyskane od właściciela serwisu,– Często bardzo duża objętość (np. angielska wikipedia
300 GB skompresowane),– Duży nakład czasu potrzebny do nauczenia się
struktury danych i ich semantyki,– Systemy nastawione na efektywność (w związku z tym
brak często bardzo istotnych danych),– Jednoźródłowość,– Problemy prawne z publikacją wyników i dostępem do
szczegółowych danych,– Niemożliwa do uzyskania zgoda właściciela serwisu
(np. Google, LinkedIn, Facebook itd.),
Źródła danych cd.
• Komputery użytkowników– Trudności w uzyskaniu zgody użytkowników,– Reprezentatywna próba bardzo trudna do
skonstruowania,– Wiele punktów dostępowych do Internetu dla
jednego użytkownika (komputer w domu, w pracy, telefon komórkowy),
– Możliwość śledzenia nie tylko efektów końcowych, ale także stanów pośrednich (zachowania użytkownika, przewijanie strony, klikanie itd.),
Źródła danych
• Dostawcy usług dostępu do Internetu (urządzenia sieciowe),– nie wymaga zgody użytkowników,– Dominacja jednej lokalizacji,– Nie działa w przypadku używania protokołu
HTTPS,– Częsta konieczność łączenia takich danych z
innymi danymi (na przykład pozyskanymi podczas crawlowania),
Źródła danych (łączenie)
• Skuteczną metodą radzenia sobie z brakami poszczególnych metod pozyskiwania danych jest ich łącznie,
• Najlepsze dla wyjaśniania procesów jest posiadanie danych od właściciela serwisu wzbogaconych o zachowania poszczególnych użytkowników,
Problemy• Widoczność w portalach społecznościowych (tylko
spojrzenie lokalne),• Człowiek <-> wirtualna tożsamość– Kto to jest „krzysiekfish” i ile ich jest?– Czy automat to też człowiek? (podbij.pl, allegro.pl),– Wiele „punktów dostępowych” -> jeden użytkownik,
• Stwierdzenie faktu istnienia zjawiska jest dużo łatwiejsze niż ocenienie jego siły,
• Widzimy tylko efekt finalny, ale nie wiemy jak do niego doszło,
• „Komentarze na forach – 10 zł za godzinę”
Widoczność portalach społecznościowych
• Pojedynczy użytkownik widzi tylko informacje ze swojej ego sieci,
• Budowanie globalnego obrazu wymaga spojrzenia na portal z bardzo wielu stron (z kont wielu użytkowników),
• Często wystarczy wycinek żeby wnioskować o całości (próbkowanie sieci społecznej nie jest trywialne),
Człowiek <-> wirtualna tożsamość
• Silne uwierzytelnienie, podniesienie kosztów pseudonimów,
• Pogódźmy się z faktem, że „krzysiekfish” i „zwykłykowalski” to różne byty,
• Wiele przeglądarek i różne urządzenia dostępowe jednego użytkownika (rezygnacja z cookies jako mechanizmu identyfikacji użytkownika)
• Automat działający w imieniu użytkownika wyrazicielem jego woli (zazwyczaj),
Ocenienie siły zjawiska
• 100 tekstów nic nie mówi, jeśli nie wiemy ile osób je przeczytało (i kto je przeczytał),
• Liczbę odbiorców można szacować np. po pozycji w rankingu google’a (poza tym Alexa i Gemius),
• Te same teksty także niewiele mówią jeśli nie wiemy kto je napisał,
Widzimy tylko efekt finalny
• Połączenie danych od właściciela serwisu z danymi zbieranymi na lokalnych komputerach (i pogłębionymi danymi o użytkownikach) umożliwia próbę odpowiedzi na pytanie jak doszło do danego efektu finalnego,
• Obserwacja zjawiska w czasie często umożliwia identyfikację jego przyczyn,
• Szukanie dalekich (nietrywialnych) związków pomiędzy efektami (zdarzeniami),
Komentarze 10 zł/h
• Dobrze przeprowadzoną akcję bardzo trudno jest zidentyfikować,
• Bardziej podejrzane nowe profile, miarą wiarygodności historyczna aktywność,
• Detekcja specyficznego języka (dobrze działa porównanie materiałów promocyjnych firmy z wpisami na forach),
• Płatne komentarze nie oddają opinii użytkowników, ale wpływają na to co internauci zobaczą,
Podsumowanie• Rosnąca wszechobecność Internetu, a także
złożoność oferowanych usług powoduje, że coraz trudniej znajdować dane o zachowaniu użytkowników, które są wiarygodne,
• Rosnąca ilość danych, które są dostępne wcale nie idzie w parze z ich jakością,
• Jeden paradygmat zbierania danych jest skazany w dłuższym okresie na porażkę,
• Musimy inaczej spojrzeć na wirtualne tożsamości (dlaczego nie traktować każdej z nich jako oddzielnego podmiotu?)
Dziękuję za uwagę