פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע...

Post on 24-Dec-2014

462 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Big Data ופרטיות

יהודית בר אילן

המחלקה ללימודי מידע

אילן-אוניברסיטת בר

Big Data בהקשר של חיפושי מידע במאגרים של Webמיליארדים רבים של מסמכי •

מנועי החיפוש

אך ישנן הערכות, המספר אינו ידוע•

...אם כי •

2

http://www.worldwidewebsize.com/

Search engine logs שאילתה בודדת•

ניסוח•

(אם בכלל)על מה הקליקו •

?מה קרה אחר כך• הקלקה נוספת•

מעבר לדף תוצאות הבא•

שינוי השאילתה•

זמנים•

•Session

יכולת לעקוב לאורך זמן על משתמשים מזוהים•

מעקב לאחר תנועות העכבר• eye trackingתחליף יעיל ופשוט ל •

•… 5

From: http://www.google.com/goodtoknow/data-on-google/search-logs/

?למה זה טוב

המשתמש" הבנת"•

שיפור חווית החיפוש•

פרסונליזציה•

(caching)זיהוי שאילתות פופולריות •

זיהוי דפים פופולריים•

תיקון טעויות •

related searches הצעות ל•

זיהוי מגמות•

6

Twitter mood predicts the stock market

Johan Bollen, Huina Mao, Xiao-Jun Zeng

Journal of Computational Science, 2(1), March 2011, Pages 1-8

(last year) last 30 days

...עלולה להיווצר פגיעה בפרטיות , אבל

11

http://commons.wikimedia.org/wiki/File:Privacy_caution.svg

AOLסיפור

שמות המשתמשים , יותר ממיליון רשומות, 2006אוגוסט • הוחלפו במספרים באופן סיסטמתי

אבל עד היום ניתן , יוםהנתונים הוסרו מהאתר כעבור • להשיג עותקים ממקומות אחרים ברשת

•AOL הפעיל את מנוע החיפוש שלGoogle

•http://en.wikipedia.org/wiki/AOL_search_data_scandal

12

AOL - המשך

ניתן ששמות המשתמשים הוחלפו במספרים למרות • משתמשים באמצעים של כריית נתוניםהיה לזהות

הגיע למשתמשת מספר New York Timesהכתב •היא אישרה . ב"שגרה בעיירה קטנה בארה 4417949

להשאכן היא שאלה את השאילתות שמיוחסות

דבר שפוגע , מאז מנועי החיפוש נזהרים עוד יותר• במחקר האקדמי בתחום

בטעות או לא )האם אחרי שהלוגים כבר שוחררו • ?מותר להשתמש בהם לצורכי מחקר, (בטעות

• Just because it’s accessible doesn’t make it ethical (boyd & Crawford)

...וגם שימושים אמנותיים , נעשו שימושים כאלה•13

AOLדוגמה לממצא על סמך נתוני

15

מהשאילתות הם כאלה שהמשתמש לא 45%יותר מ • הקליק על אף תוצאה

מענהעל כך הלוגים אינם יכולים לתת ??? מדוע•

כדי להבין את תופעה יש לחקור את התנהגות המידע •נסו לחשוב מדוע מבצעים חיפוש ואחר . של המשתמשים

?כך לא מקליקים על כלום השאילתה לא הניבה תוצאות•

יש תוצאות אך הן בבירור לא מתאימות•

התשובה נמצאת כבר על דף התוצאות•

נמצאו מונחי חיפוש מתאימים יותר בדף התוצאות•

המשתמש החליט לעבור לדף התוצאות הבא•

...הטלפון צלצל והפסקתי את החיפוש •

מחקר אקדמיחוקרים באקדמיה זקוקים לנתונים מהלוגים כדי לקדם •

מחקר מדעי בתחום

•Crawling אבל מאגר נתונים אינו , קל יחסית לבצע מספיק

חשוב לדעת כיצד המשתמשים ניגשים למידע•

אבל זה לא מספיק, ניתן לבצע מחקרים איכותניים•

לחוקרים ללוגי חיפוש עדכניים כיום כמעט ואין גישה • חיפוששאינם קשורים למנועי

מידע על " לנדב"ישנם ניסיונות למצוא אנשים שמוכנים • .מיוחד toolbarהחיפושים שלהם באמצעות

16

ההיבט המשפטי

מנועי החיפוש חוששים מצווים ממשלתיים או •צווים של בתי משפט אשר מורים להם להעביר מידע

. על חיפושי משתמשיםב דרשה נתוני חיפושים "ממשלת ארה 2005בשנת •

. ממנועי החיפוש הגדולים( מונחי חיפוש בלבד)Microsoft ו-Yahoo נענו לדרישה ,Google סירבה .

בית המשפט קבע שאין להעביר נתונים אלה בהמשך • .מפאת חשש לפגיעה בפרטיות

17

Googleדרך ההתמודדות של • “We anonymize IP addresses after 9 months and

alter the cookie numbers in our logs permanently after 18 months.

• This breaks the link between the search query and the computer it was entered from and is similar to the way in which credit card receipts replace digits with hash marks to improve customer security.

• Here is what an IP address could look like in our logs after 9 months: 123.45.67.XXX. After 18 months, the cookie will be replaced by a newly-generated cookie number. “

• http://www.google.com/goodtoknow/data-on-google/search-logs/

18

סיכום

Bigלוגים של מנועי חיפוש הם רק דוגמה אחת ל Data

הם מאפשרים שיפור בחוויית החיפוש•

אך מעוררים בעיות אתיות קשות•

גישה מוגבלת לחוקרים באקדמיה•

"נתוני עתק"לא ניתן להסתמך רק על •

19

http://commons.wikimedia.org/wiki/File:Presa_de_decissions.png

top related