jak pozyskać wiarygodne dane o zjawiskach społecznych z internetu?

Jak pozyskać wiarygodne dane o zjawiskach społecznych z Internetu?

Radosław Nielek,[email protected],

Warszawa, 30.06.2010 r.

Czego szukamy?

„Zjawisko społeczne – zjawisko, fakt społeczny czy proces który istnieje, powstaje i zmienia się w czasie dzięki działaniom zbiorowości społecznych lub grup społecznych. Może występować jedynie w odczuciu przedstawicieli danej społeczności (nie mieć charakteru obiektywnego).”

Wikipedia

Przykładowe zjawiska społeczne w Internecie

• Wojny edycyjne na Wikipedii,• Spirala nienawiści (agresji) w komentarzach na

allegro,• Rozprzestrzenianie się memów w sieci,• Free-riders w sieciach P2P i systemach

reputacyjnych,• 0.5% negatywnych komentarzy na Allegro i

eBay-u,

Źródła danych

• Crawlowanie dostępnych serwisów,– Widzimy to co widzą internauci (z wyjątkiem

personalizacji),– Bariery: deep web i formularze (wyszukiwanie, wybór),

niektóre technologie (AJAX, JavaScript, Flash),– Brak wielu istotnych informacji (np. czas – można

uzyskać porównując różne przy częstym crawlowaniu),– Problem z czyszczeniem danych (spam

wyszukiwarkowy, strony generowane przez automaty, fragmenty strony – np. reklamy),

– Wydajność przestała być problemem

Źródła danych• Dane pozyskane od właściciela serwisu,– Często bardzo duża objętość (np. angielska wikipedia

300 GB skompresowane),– Duży nakład czasu potrzebny do nauczenia się

struktury danych i ich semantyki,– Systemy nastawione na efektywność (w związku z tym

brak często bardzo istotnych danych),– Jednoźródłowość,– Problemy prawne z publikacją wyników i dostępem do

szczegółowych danych,– Niemożliwa do uzyskania zgoda właściciela serwisu

(np. Google, LinkedIn, Facebook itd.),

Źródła danych cd.

• Komputery użytkowników– Trudności w uzyskaniu zgody użytkowników,– Reprezentatywna próba bardzo trudna do

skonstruowania,– Wiele punktów dostępowych do Internetu dla

jednego użytkownika (komputer w domu, w pracy, telefon komórkowy),

– Możliwość śledzenia nie tylko efektów końcowych, ale także stanów pośrednich (zachowania użytkownika, przewijanie strony, klikanie itd.),

Źródła danych

• Dostawcy usług dostępu do Internetu (urządzenia sieciowe),– nie wymaga zgody użytkowników,– Dominacja jednej lokalizacji,– Nie działa w przypadku używania protokołu

HTTPS,– Częsta konieczność łączenia takich danych z

innymi danymi (na przykład pozyskanymi podczas crawlowania),

Źródła danych (łączenie)

• Skuteczną metodą radzenia sobie z brakami poszczególnych metod pozyskiwania danych jest ich łącznie,

• Najlepsze dla wyjaśniania procesów jest posiadanie danych od właściciela serwisu wzbogaconych o zachowania poszczególnych użytkowników,

Problemy• Widoczność w portalach społecznościowych (tylko

spojrzenie lokalne),• Człowiek <-> wirtualna tożsamość– Kto to jest „krzysiekfish” i ile ich jest?– Czy automat to też człowiek? (podbij.pl, allegro.pl),– Wiele „punktów dostępowych” -> jeden użytkownik,

• Stwierdzenie faktu istnienia zjawiska jest dużo łatwiejsze niż ocenienie jego siły,

• Widzimy tylko efekt finalny, ale nie wiemy jak do niego doszło,

• „Komentarze na forach – 10 zł za godzinę”

Widoczność portalach społecznościowych

• Pojedynczy użytkownik widzi tylko informacje ze swojej ego sieci,

• Budowanie globalnego obrazu wymaga spojrzenia na portal z bardzo wielu stron (z kont wielu użytkowników),

• Często wystarczy wycinek żeby wnioskować o całości (próbkowanie sieci społecznej nie jest trywialne),

Człowiek <-> wirtualna tożsamość

• Silne uwierzytelnienie, podniesienie kosztów pseudonimów,

• Pogódźmy się z faktem, że „krzysiekfish” i „zwykłykowalski” to różne byty,

• Wiele przeglądarek i różne urządzenia dostępowe jednego użytkownika (rezygnacja z cookies jako mechanizmu identyfikacji użytkownika)

• Automat działający w imieniu użytkownika wyrazicielem jego woli (zazwyczaj),

Ocenienie siły zjawiska

• 100 tekstów nic nie mówi, jeśli nie wiemy ile osób je przeczytało (i kto je przeczytał),

• Liczbę odbiorców można szacować np. po pozycji w rankingu google’a (poza tym Alexa i Gemius),

• Te same teksty także niewiele mówią jeśli nie wiemy kto je napisał,

Widzimy tylko efekt finalny

• Połączenie danych od właściciela serwisu z danymi zbieranymi na lokalnych komputerach (i pogłębionymi danymi o użytkownikach) umożliwia próbę odpowiedzi na pytanie jak doszło do danego efektu finalnego,

• Obserwacja zjawiska w czasie często umożliwia identyfikację jego przyczyn,

• Szukanie dalekich (nietrywialnych) związków pomiędzy efektami (zdarzeniami),

Komentarze 10 zł/h

• Dobrze przeprowadzoną akcję bardzo trudno jest zidentyfikować,

• Bardziej podejrzane nowe profile, miarą wiarygodności historyczna aktywność,

• Detekcja specyficznego języka (dobrze działa porównanie materiałów promocyjnych firmy z wpisami na forach),

• Płatne komentarze nie oddają opinii użytkowników, ale wpływają na to co internauci zobaczą,

Podsumowanie• Rosnąca wszechobecność Internetu, a także

złożoność oferowanych usług powoduje, że coraz trudniej znajdować dane o zachowaniu użytkowników, które są wiarygodne,

• Rosnąca ilość danych, które są dostępne wcale nie idzie w parze z ich jakością,

• Jeden paradygmat zbierania danych jest skazany w dłuższym okresie na porażkę,

• Musimy inaczej spojrzeć na wirtualne tożsamości (dlaczego nie traktować każdej z nich jako oddzielnego podmiotu?)

Dziękuję za uwagę

jak pozyskać wiarygodne dane o zjawiskach społecznych z internetu?

Technology