introducció a open data / big data
TRANSCRIPT
Open / Big Data
Conceptes bsicsbones prctiquesrecursos
Juli MinguillnEIMT / UOC
Taula de continguts
Conceptes bsics
Aspectes importants
42
Organitzaci de les dades
Linked data / Big data
Cicle de vida
Bones prctiques
Recursos
Conceptes bsics
Per qu dades obertes?
Qu s obert?No noms gratuit
Qu s una dada?No noms nmeros en taules
Qu s big?
Per qu dades obertes?
Per retornar a l'usuari / ciutad el que s seu
Per transparncia administrativa
Per impulsar la participaci ciutadana
Per dotar a l'usuari de competncies bsiques
Per poder informar millor
Per promoure la innovaci oberta
Per crear coneixement compartit
Per reduir el frau cientfic
...
Obert com a llibertat
Les 4 R de David Wiley:Reutilitzar
Revisar
Remesclar
Redistribuir
Accessible Manipulable Publicable
Aspectes importants
Aspectes tecnolgics:On publicar / trobar les dades obertes
Quin s el format de les dades
Quin s el format del fitxer
Dades esttiques / dinmiques
...
Aspectes legals:Establir una llicncia
Condicions d's
Disclaimer
Aspectes legals
Les dades (com fets) no poden ser patentades
Per les colleccions poden ser protegides
Estar penjat a Internet no equival a obert
Cal aclarir / explicitar:Traabilitat: origen de les dades
Condicions d's
Privacitat: el mal exemple de AOL
Qualitat: responsabilitat sobre les dades
Es pot fer pagar per lo pblic? El cas d'AEMET
Dades
42
Dades
Dada: 42
Informaci: la temperatura del pacient s de 42 graus ( C)
Coneixement: una febre de ms de 42 C pot provocar danys cerebrals
Saviesa: no deixar arribar la febre a 42 C
Organitzaci de les dades
Estructurades:Planes: taules, longitud fixa
Jerrquiques: longitud variable (exemple: Tweet)
No estructurades:Textos
Aspectes importants:Descripci
Semntica
Compactesa
Model de Tim Berners-Lee
* Documents no manipulables: PDF, TIFF
** Manipulables en un format propietari: XLS, SPSS
*** Usar formats oberts: CSV, JSON
**** Usar estndards per descriure els elements: XML
***** Enllaar amb altres dades: RDF
Linked Data
Dades llegibles per mquines web semntica
Principis bsics (Tim Berners-Lee):Identificar l'origen de cada dada
Enllaar per afegir context i significat
Gran volum de conjunts enllaats (graf)
Consultes via SPARQL, Yahoo QL, ...
Semntica: imatges amb edificis modernistes
Exemple: flickr+dbpedia
Dades dinmiques
Accs mitjanant una API:El servidor ofereix un punt d'entrada (servei web)
S'accepten querys ben formades
Es retornen les dades en el format especificat
Limitacions:Nombre de querys / resultats per segon / en total
Potser cal un registre / autenticaci prvia
Exemples:Twitter, flickr, dbpedia, open weather, ...
Big Data (3 V)
Variables(Variety)
Mostres(Volume)
Temps(Velocity)
Exemples de (not so) Big Data (I)
La UOC:Milers d'estudiants connectats (20000 / dia)
Centenars de variables (p.e. accions)
Al llarg d'un semestre acadmic
Servei de Bicing:Mxim de 190000 usuaris (ara 100000)
6000 bicicletes / 420 estacions
1250000 usos mensuals
Exemples de Big Data (II)
Walmart:8500 botigues (4253 als USA)
90% dels usuaris a menys de 15' d'una botiga
100000000 de consumidors per setmana
Milers de productes en venda
Altres: e-bay, Amazon, VISA, ...
Dades cientfiques (LHC 25 petabytes / any)
http://www.businessinsider.com/16-walmart-factshttp://www.statisticbrain.com/wal-mart-company-statistics/
10^15
Exemples de Big Data (III)
Xarxes socials:Facebook: 1000000000 usuaris
Linkedin: 200000000 usuaris
Twitter: 500000000 usuaris20000000 usuaris fake
230000000 usuaris actius al mes, 100000000 al dia
500000000 de tweets al dia (2500 bytes / tweet)
Google (24 petabytes / dia):1170000000 usuaris fent 12900000000 cerques al mes
http://en.wikipedia.org/wiki/List_of_social_networking_websites
Qui genera dades?
UsuarisXarxes socials
CorporacionsOperadors de telefonia / proveidors Internet
Consum, mercats, borsa,
Publicacions cientfiques
Administraci
Xarxes de sensorsMeteorologia
Smart cities
Rols
Productors
Infomediadors
Consumidors
Cicle de vida de les dades obertes
GeneraciPublicaciCapturaPreprocessamentAnlisiVisualitzaci
Captura
Objectiu: obtenir les dades necessriesDades esttiques
Dades dinmiques
Servidors web: logs
Quan tot falla:Web scrapping
Crowdsourcing
Procs costs i semi-automtic (o manual)
Preprocessament
Objectiu: preparar les dades per a ser analitzadesFusi de dades de diferents origens (join)
Agregaci (group by)
Selecci de mostres / variables (filter)
Transformaci de variables (p.e. unitats)
Clcul de noves variables
Anlisi
Objectiu: extraure coneixement de les dadesDetecci de patrons
Creaci de modelsClustering
Arbres de decisi
Regles d'associaci
InterpretaciClassificaci
Predicci
Importncia de les variables
Caracteritzaci
Visualitzaci
Objectiu: representar el coneixement extretEls humans som excelents processadors visualsForma, mida, color, posici, patrons, 2D/3D,
Per som dolents fent clculs:rees, proporcions,
Afegir context / semntica:Relacions
Mapes
La visualitzaci esdev la interfcie
La visualitzaci s un altre tipus d'anlisi
Bones prctiques
Smart cities:Live London underground map
NYC runners
Transport aeri: OpenFlights
Data journalism:The World at 7 billion
Death and Taxes
Esdeveniments: Agenda oberta
...
Portals de dades obertes
Ajuntaments de Barcelona, Badalona, Sabadell, Terrassa, Cornell, ...
Generalitat de Catalunya
Open Data Euskadi
datos.gob.es
data.gov.uk
publicdata.eu
data.gov
Altres portals
UCI ML: recerca en machine learning
KDD cup: competint pel millor predictor
CKAN
World Bank Open Data
Wikidata: posant ordre
Urban Observatory: dades de grans ciutats
Visual.ly
...
Eines per a la captura
Usar les API existents
Web scrappingA pl (llenguatge de programaci)
Scraperwiki (Python / Ruby / PHP)
Yahoo Query Language
A lo pobre (inspecci HTML)
Formularis
CrowdsourcingReCAPTCHA
Papeles de Brcenas / Indultmetro / 15Mpedia
Eines per al preprocessament
Google Refine (Open Refine)
Yahoo Pipes
Llenguatges de programaciAwk Perl Python
Recursos online:Mr. Data Converter
JSON editor online
Eines per a l'anlisi
Excel / OpenOffice
Paquets estadstics:SPSS
R
Gephi (anlisi de xarxes)
Llenguatges de programaci
Llibreries: Weka, RapidMiner, Orange, ...
Recursos online: SOCR (UCLA), StatPages
Eines per a la visualitzaci
IBM ManyEyes
Excel / OpenOffice
SPSS / R
Gephi
Processing
OpenFrameworks
CSS+HTML5+DOM+Javascript D3.js
OpenStreetMap
Altres: Wordle, Twitter, ...
Esdeveniments
Big Data Week1a edici: 22-28 abril 2013, 20000+ participants
2a edici: 5-11 maig 2014
ConfernciesKDD / MLDM
VLDB
Big Data
Hackathons (exemple: Europeana)
Curs + Taller sobre dades obertes UOC
Per saber-ne ms
Open Data An introduction
Decleg Open Data
Llicncies per Open Data
Big Data:Big Data: Welcome to the Petacentre
Big Data amb Hadoop
Article a EPI
Contacte
Juli Minguilln
jminguillona[at]uoc[dot]edu@jminguillonahttp://oer.uoc.edu/cursOpenData/
CC-BY-SA (c) Juli Minguilln, 2013