big data & machine learning - mogelijkheden & valkuilen
TRANSCRIPT
![Page 1: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/1.jpg)
Big Data & Machine Learning
Mogelijkheden & Valkuilen
David Graus
![Page 2: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/2.jpg)
Deel 0: IntroductieWie ben ik? Wat is Big Data & Machine Learning (ML)?
Deel I: TheorieHoe werkt ML?
Deel II: Voorbeelden Mogelijkheden van Big Data & ML
Deel III: Valkuilen Risico’s bij het gebruik van
ML & Big Data?
![Page 3: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/3.jpg)
Wie ben ik?
PhD kandidaat @ UvA: Semantic Search for E-Discovery
Data Scientist @ FD Mediagroep
![Page 4: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/4.jpg)
Semantic Search for E-Discovery
• E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in ongestructureerde data (social media, forums, email, etc.)
• Semantic search: toegepaste machine learning en taaltechnologie voor beter ontsluiten “digitale sporen.”
1. Herkennen structuur (entities) in ongestructureerde data (tekst).
2. Voorspellen van gebruikersgedrag op basis van data.
• Vakgebieden: Machine Learning, Text Mining, Information Retrieval.
![Page 5: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/5.jpg)
Wat is big data?
![Page 6: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/6.jpg)
Wat is big data?
![Page 8: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/8.jpg)
7
Only 4% of Web content (~8 billion pages) is available via search engines like Google
The Public Web
Source: The Deep Web: Semantic Search Takes Innovation to New Depths
Big Data is Behind the Firewall
The Deep Web
Approximately 96% of information is inside the firewall
Fragmented Unmanaged
Growing Hidden
7.9 Zettabytes
![Page 9: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/9.jpg)
Kortom
• Big data:
• Veel (en steeds meer!)
• Snel
• Gevarieerd
• Ongestructureerd/“Onzeker”
![Page 10: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/10.jpg)
Wat is Machine Learning?
![Page 11: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/11.jpg)
Wat is Machine Learning?
• Subgebied van “AI” (Kunstmatige Intelligentie)
• The subfield of computer science that “gives
computers the ability to learn without being
explicitly programmed”
![Page 12: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/12.jpg)
![Page 13: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/13.jpg)
• “AI-hype”
• IBM (Watson), Google (DeepMind)
• Futuristisch: Tesla (zelf-rijdende auto’s)
![Page 14: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/14.jpg)
![Page 15: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/15.jpg)
![Page 16: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/16.jpg)
Deel I: Hoe werkt
Machine Learning?
![Page 17: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/17.jpg)
ML 101
• Voorspel: is iets lekker of niet lekker?
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 18: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/18.jpg)
ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 19: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/19.jpg)
ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 20: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/20.jpg)
Feature Extraction
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 21: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/21.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 22: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/22.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 23: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/23.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 24: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/24.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 25: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/25.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 26: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/26.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 27: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/27.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 28: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/28.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 29: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/29.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 30: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/30.jpg)
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 31: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/31.jpg)
Leer een model
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 32: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/32.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 33: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/33.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 34: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/34.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
3 2 3 1 0 0
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 35: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/35.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
3 2 3 1 0 0
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 36: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/36.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
3 2 3 1 0 0
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Appel
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 37: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/37.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
3 2 3 1 0 0
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Appel
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 38: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/38.jpg)
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
3 2 3 1 0 0
zoet zout knapperig groente3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Appel
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 39: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/39.jpg)
Voorspel
Bereken de score voor “nieuwe” data.
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0
3 2 3 1 0 0
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
![Page 40: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/40.jpg)
Voorspel
Bereken de score voor “nieuwe” data.
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0 4
3 2 3 1 0 0
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
![Page 41: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/41.jpg)
Voorspel
Bereken de score voor “nieuwe” data.
IJs Pizza
Aardbeien Sardines Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0 4
3 2 3 1 0 0
Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
3 0 3 0 0 0
0 1 0 1 0 0
0 1 0 0 1 1
0 0 0 0
-1 -1
Lekker
![Page 42: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/42.jpg)
Samenvattend
• Gegeven voorbeelden + labels.
• Omschrijf voorbeelden (features)
• Leer een model om features naar labels te “vertalen”
• Bereken voor een nieuw voorbeeld de score
Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
![Page 43: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/43.jpg)
Deel II: Voorbeelden
![Page 44: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/44.jpg)
1: Voorspellen email communicatie
![Page 45: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/45.jpg)
Waarom?
• Inzicht krijgen in communicatiepatronen.
• Wat zijn de factoren die communicatie bepalen?
• Ontdekken ‘afwijkende’ communicatiepatronen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 46: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/46.jpg)
Hoe?
• Leer van (historische) digitale sporen.
• Vergelijk invloed van:
1. Inhoud van email
2. Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 47: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/47.jpg)
Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 48: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/48.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 49: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/49.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 50: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/50.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 51: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/51.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 52: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/52.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 53: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/53.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 54: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/54.jpg)
Communicatie netwerk
[email protected] [email protected]
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 55: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/55.jpg)
image by Calvinius - Creative Commons Attribution-Share Alike 3.0
![Page 56: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/56.jpg)
![Page 57: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/57.jpg)
Bevindingen
• Email inhoud heeft meer voorspelbare waarde dan het netwerk.
• Combineren levert het meest effectieve voorspellen.
• Juiste voorspelling in ~66% van de gevallen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
![Page 58: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/58.jpg)
2: Structuur van
Criminele Netwerken
![Page 59: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/59.jpg)
Wat?
• Computermodellen inzetten om te onderzoeken hoe een crimineel netwerk op te rollen.
• Case-study: illegale hennepteelt
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 60: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/60.jpg)
Hoe?
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 61: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/61.jpg)
Hoe?
Data Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 62: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/62.jpg)
Hoe?
Data Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie.
VoorspelExperimenteer met het weghalen van knooppunten (= personen) uit het netwerk; meet welke de meeste invloed hebben op de “gezondheid” van het netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 63: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/63.jpg)
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 64: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/64.jpg)
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 65: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/65.jpg)
Bevindingen
• Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 66: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/66.jpg)
Bevindingen
• Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk.
• Computersimulaties om “goedkoop” verschillende interventiestrategieën te testen en te meten.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
![Page 67: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/67.jpg)
3: New York City’s Geek Squad
![Page 68: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/68.jpg)
Waarom?
• Enorm veel gegevens en informatie beschikbaar op stadsniveau.
• Case-study: “illegal conversions” van appartementen
• Opsplitsen van appartementen voor illegale onderhuur.
http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
![Page 69: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/69.jpg)
Hoe?
http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
![Page 70: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/70.jpg)
Hoe?
Data Breng alle kavels in kaart.“Verrijk” kavels met extra databronnen.
http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
![Page 71: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/71.jpg)
Hoe?
Data Breng alle kavels in kaart.“Verrijk” kavels met extra databronnen.
VoorspelLeer van 5 jaar historische data welke kavels het meest waarschijnlijk “illegally converted” zijn.
http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
![Page 72: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/72.jpg)
Bevindingen
• effectiviteit van opsporen conversions van 13% naar 70%.
• Data die op het eerste gezicht niet gerelateerd lijken, hebben grote voorspelbare waarde.
http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
![Page 73: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/73.jpg)
4: Voorspellende waarde
Facebook likes
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
![Page 74: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/74.jpg)
4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten - Facebook profiel: leeftijd, relatie, etc.- Enquête informatie: roken/drankgebruik, etc. - Facebook likes (gem. ~170 pp)
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
![Page 75: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/75.jpg)
4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten - Facebook profiel: leeftijd, relatie, etc.- Enquête informatie: roken/drankgebruik, etc. - Facebook likes (gem. ~170 pp)
VoorspelGegeven likes van alle respondenten voorspel Facebook profiel/enquête data.
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
![Page 76: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/76.jpg)
Kosinski et al., “Private traits and attributes are predictable from digital records of human behavior” (2013)
![Page 77: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/77.jpg)
Bevindingen
• Automatisch categoriseren van mensen op basis van likes.
• “Verlies” privacy door wat anderen delen.
• Zelfs met een weinig likes (1-5) kun je accurate voorspellingen maken.
![Page 78: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/78.jpg)
Wrap-up
![Page 79: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/79.jpg)
Wrap-up
(Big) Data:
1. (Historisch) Email verkeer
2. Politie/overheidsdata
3. Stadsdata
4. Facebook likes
![Page 80: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/80.jpg)
Wrap-up
(Big) Data:
1. (Historisch) Email verkeer
2. Politie/overheidsdata
3. Stadsdata
4. Facebook likes
Voorspellingen:
1. Wie communiceert met wie (en waarom)?
2. Wie moet je oppakken om een netwerk te verstoren?
3. Wie zijn de verdachten van illegale activiteiten?
4. Wie is de persoon achter een Facebook profiel?
![Page 81: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/81.jpg)
Veel mogelijkheden!
• We gebruiken het dagelijks.
![Page 82: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/82.jpg)
Veel mogelijkheden!
• We gebruiken het dagelijks.
• En steeds meer in de toekomst.
![Page 83: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/83.jpg)
Deel III: Valkuilen
![Page 84: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/84.jpg)
• Steeds meer data/ML “achter de schermen”
• Credit scores.
• Sollicitanten matchen op basis van CV analyse.
• Algorithmic Price Discrimination.
• In het extreme: China’s “Social Credit System.”
Risico’s
![Page 85: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/85.jpg)
Risico’s
• ML heeft tot doel m.b.v. (historische) data de meest waarschijnlijke uitkomst te voorspellen.
• Aanname: patronen herhalen zich
• Gevolg: geleerde “vooroordelen” bestaan voort.
• Voorspel het meest waarschijnlijke: optimalisatie voor de gemene deler.
![Page 86: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/86.jpg)
Algorithmic Bias
• Men ziet technologie, algoritmen, en wiskundige modellen veelal als “neutraal,” en “objectief.”
• Maar dat zijn ze niet: ze zijn een reflectie van onszelf, en leren van “ons”
• Bias In, Bias Out
![Page 87: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/87.jpg)
Voorbeeld
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
![Page 88: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/88.jpg)
Voorbeeld
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
![Page 89: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/89.jpg)
Algorithmic Bias
• Relatief nieuw “topic”
• Politieke agenda:
• EU (General Data Protection Regulation)
• The White House “Big Data” reports [1, 2]
• En ook steeds meer vanuit de informatica.
https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
![Page 90: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/90.jpg)
Begrijp de data
• Onderzoek van Google naar het ‘eerlijk maken’ van banken leen-krediet systeem
• Automatisch compenseren van beslissingsfunctie voor aanwezige subgroepen in data.
![Page 91: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/91.jpg)
![Page 92: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/92.jpg)
![Page 93: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/93.jpg)
![Page 94: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/94.jpg)
• http://research.google.com/bigpicture/attacking-discrimination-in-ml/
![Page 95: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/95.jpg)
• http://research.google.com/bigpicture/attacking-discrimination-in-ml/
![Page 96: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/96.jpg)
• http://research.google.com/bigpicture/attacking-discrimination-in-ml/
![Page 97: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/97.jpg)
Begrijp de data
• Van belang om goed de verschillende subgroepen te vinden.
• http://research.google.com/bigpicture/attacking-discrimination-in-ml/
![Page 98: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/98.jpg)
Begrijp het proces
• Verander de perceptie. De uitkomst van een ML model is ook maar een ‘standpunt’ — indirect een reflectie van onszelf.
• Behandel deze systemen dus niet als ‘orakel.’
• EU wetgeving is een stap in de goede richting.
![Page 99: Big Data & Machine Learning - Mogelijkheden & Valkuilen](https://reader031.vdocuments.pub/reader031/viewer/2022030316/587a63001a28ab8a2a8b493d/html5/thumbnails/99.jpg)
Samenvattend
• Veel mogelijkheden
• Ongekende hoeveelheid data + snelle computerhardware + slimme algoritmen.
• Steeds toegankelijker.
• Algemene tendens = grotere rol van big data/ML.
• Pas op voor valkuilen!
• Bias In, Bias Out
• Algoritmen zijn geen orakels