technologie de l'information - cercle d'histoire · – isabelle boydens ou bibliologie...

57
Technologie de l'information 1. Introduction Examen : Un travail final (50% de la note) conditionné par une page HTML (envoyer pages (une par étudiant) pour le 31/10 AU PLUS TARD) Objectif : réaliser une base de donnée en ligne comprenant des sources primaires et secondaires sur base d'un sujet défini (A RENDRE AVANT 10/10 : [email protected]). Outils : Zotero : gestion de références bibliographiques Omeka : permet de créer une sorte de catalogue Un examen : QCM + 2 questions ouvertes (50%) Vocabualire : « Tor » : permet de garantir l'anonymat sur le net Deep web : partie d'internet qui n'est pas visible depuis des moteurs de recherche classiques Netflix (Prize) : essaie de capter un maximum de données (BigData) pour proposer un système de recommandation le plus pertinent possible. Ils utilisent notre comportement, les méta- données, la maison de production, les acteurs/producteurs etc. Ils croisent ensuite ces infos pour nous proposer un choix. Ils réalisent également des analyses sur l'attraction des affiches de film. USA UK (monde anglo-saxon) : impact de la crise économique sur les sciences humaines, celles- ci se sont mangées par le numérique et son système binaire de pensée (idées pointées par Johanna Drucker ou Alan Liu). L'apport des sciences humaines face au numérique est souvent minimisé. Mais ces sciences peuvent réellement apporter quelque chose à cette discipline (ex. Herméneutique Isabelle Boydens ou Bibliologie Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared the Ax. 2. Bases de données C'est un ensemble structuré de données permettant : l'encodage la recherche la préservation Exemples du quotidien : utilisation d'un distributeur d'argent, achat d'un billet d'avion en ligne, consultation du catalogue de la bibliothèque etc. . Toutefois, il faut faire la part des choses entre le front-end c ’ et le back-end.

Upload: vucong

Post on 14-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Technologie de l'information 1. Introduction Examen : • Un travail final (50% de la note) conditionné par une page HTML (envoyer pages (une par étudiant) pour le 31/10 AU PLUS TARD)

• Objectif : réaliser une base de donnée en ligne comprenant des sources primaires et secondaires sur base d'un sujet défini (A RENDRE AVANT 10/10 : [email protected]). • Outils :

• Zotero : gestion de références bibliographiques • Omeka : permet de créer une sorte de catalogue

• Un examen : QCM + 2 questions ouvertes (50%) Vocabualire : • « Tor » : permet de garantir l'anonymat sur le net • Deep web : partie d'internet qui n'est pas visible depuis des moteurs de recherche classiques • Netflix (Prize) : essaie de capter un maximum de données (BigData) pour proposer un système de recommandation le plus pertinent possible. Ils utilisent notre comportement, les méta-données, la maison de production, les acteurs/producteurs etc. Ils croisent ensuite ces infos pour nous proposer un choix. Ils réalisent également des analyses sur l'attraction des affiches de film. USA – UK (monde anglo-saxon) : impact de la crise économique sur les sciences humaines, celles-ci se sont mangées par le numérique et son système binaire de pensée (idées pointées par Johanna Drucker ou Alan Liu). L'apport des sciences humaines face au numérique est souvent minimisé. Mais ces sciences peuvent réellement apporter quelque chose à cette discipline (ex. Herméneutique – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared the Ax. 2. Bases de données C'est un ensemble structuré de données permettant : • l'encodage • la recherche • la préservation Exemples du quotidien : utilisation d'un distributeur d'argent, achat d'un billet d'avion en ligne, consultation du catalogue de la bibliothèque etc.

. Toutefois, il faut faire la part des choses entre

• le front-end c ’ et

• le back-end ’ .

Noe Gross
Noe Gross
Noe Gross
Page 2: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

O x mp ’ f c Om k . C’ f c p p c . U p p ’ c c c . L’ p p ’ f ’ f c . I y ff c ch : • le site grand public, • ’interface dans laquelle on encode les données • la base de données/le logiciel plus technique utilisé pour configurer les tables. Ces tables représentent des entités : les caractéristiques principales du sujet étudié. Souvent, on donne cette tâche à un informaticien. Nos compétences ? • Savoir faire abstraction du monde réel et identifier les concepts clés à représenter dans une base de données • Quels sont les tables, les champs et les relations permettant de représenter un domaine d'application ? • Quelqu'un avec un diplôme de sciences humaines a plus de compétences qu'un informaticien pour cette démarche Notre mission ? Développer une base de données permettant d'encoder des données bibliographiques et d'effectuer des requêtes sur les données encodées. Tentative de création d'une base de donnée L pp m ’ c p ’h mm . L ch la plus évidente et facile sertait de créer le tableau suivant, en identifiant les champs et en encodant les fichiers.

Dans les colonnes, on encode des infos par rapport à chaque objet (ex : auteur, titre, période) : les champs. Ils décrivent les caractéristiques spécifiques du type d'objet documenté dans une base de donnée (fichier). Et chaque fichier correspond à un ensemble de champs formant une unité d'information concrète dans une base de donnée (une ligne horizontale).

Noe Gross
Noe Gross
Page 3: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Types de champs : les bases de données permettent de spécifier par champ le format d'encodage des données afin de garantir une cohérence au niveau des recherches, comme par exemple au niveau des dates.

L’ p c c p p mportante est de développer une typologie des sources primaires et c . E f c yp ’ j ’ c m ch m champs qui vont décrire ces objets spécifiques. Le champ le plus problématique est les dates car on peut exprimer les dates de nombreuses façons différentes. Quand on configure une base de données, ’ c p c c f m .

Ces données tabulaires offrent la solution la plus simple mais il y a des désavantages à cette ma è ck ’ f m mm m ch ch m j : • Une recherche pour un auteur doit parcourir l'ensemble des données : temps de recherche élevé. On ne peut pas lancer de requête complexe ; la recherche sera peu performante • Si nous devons mettre à jour le nom d'un auteur il faudra modifier l'ensemble des occurences du nom, ce qui peut provoquer de l'inconsistance dans la BDD. Problème pour veiller sur la c c ( x. m ’ )

• La redond c ( m ’ p ê m p f ) Pour éviter cela, il faut modéliser les données. Pour ce faire, il faut identifier les entités et les attributs. Cela revient à identifier des types de données qui varient de façon indépendante (entités) et y associer leurs caractéristiques (attributs), stochés dans des tables indépendantes.

La difficulté est de se demander : que vais-je prendre comme entités et quels attributs vais-je leur donner ? A tout moment, on peut prendre la décision de convertir une entité en attribut. Il faut se demander : cet élément est-il assez important pour le constituer en tant ’ -je le constituer en tant

’ ?

Après avoir modélisé les données on se retrouve ici avec trois tables (trois entités) différentes, reprenant chacune les différents attributs qui les constituent.

Noe Gross
Noe Gross
Noe Gross
Page 4: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Schémas entité-relation A partir des années 70, on a développé des schémas d’entités relationnelles. On va tout interpréter par des entités ayant des attributs et on va relier ces entités avec des relations. Maintenant, comment établir des relations entre les entités ?

O c c ff . L’ ’ c f ’ ; on ne doit pas chaque fois ré-encoder les informations c c . I ’y p c p f ch ch p p . c p p m ’ f ch f ’ f c ’ .

• Clé primaire : permet d'identifier de manière unique un enregistrement dans une table (exemple Work ID)

• Clé étrangère : permet de garantir l'intégrité référentielle entre deux tables (exemple Author

ID)

Limite : pour migrer une base de données vers une autre, cela est complexe et prend énormément de temps. Pour comprendre la base de données, il faut comprendre les schémas entité- . Dè ’ c mp x ’ f ch m j m c ’ p mp f ’ è ch m . !!! Ces schémas sont l'étape la plus importante dans le processus de création d'une BDD, ce qui demande de la compréhension et des compétences d'abstraction du réel. L'inclusion ou l'exclusion d'entités, la définition de leurs attributs et la création des relations entre les entités déterminera comment la BDD pourra être utilisée. C'est une étape trop importante pour être laissée dans les mains d'un informaticien.

Noe Gross
Noe Gross
Noe Gross
Page 5: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Cardinalité d'une relation La cardinalité exprime le nombre d'individus qui participent à la relation entre deux entités. Elle définit donc comment deux entités vont intéragir entre elles. Les cardinalités permettent de veiller sur la cohérence et l'unicité des enregistrements. C'est un moyen d'imposer des contraintes sur un schéma. On indique combien de fois une entité peut interagir avec une autre. Il y a différents types de cardinalités : • un à un • un à plusieurs • plusieurs à un • plusieurs à plusieurs Exemple : relation de un à un

Il faut lire la cardinalité dans les deux sens. Le 1er chiffre indique le nombre minimal de relations et le 2ème chiffre indique le nombre maximal de relations. On a toujours 3 options : aucune relation (0), une relation (1) ou plusieurs relations (N). Ici, on peut donc voir que • La première cardinalité décrit combien de prêts un client peut prendre. Le (1,1) représente que chaque client doit avoir un emprunt (mais ne peut pas en avoir deux) pour exister dans la base de données. • La deuxième cardinalité décrit la quantité de client associé à un prêt. Le (1,1) représente le fait ’ mp p p ê f p p p p ê c ’ client.

Noe Gross
Page 6: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Exemple : relation de plusieurs à plusieurs Un client doit avoir au minimum un emprunt mais peut en avoir plusieurs. De plus, un emprunt est associé à au moins un client mais plusieurs personnes peuvent être associées au même emprunt.

Exercice : dessinez un schéma entité-relation qui permet de créer une base de données qui gère les comptes de clients d'une banque. L'adresse de chaque client doit être enregistrée, ainsi que le solde de chaque compte. Un client peut avoir plusieurs comptes, mais un compte ne peut être que sur le nom d'une personne.

A partir d'un schéma, une base de données « physique » peut être construite avec une application de gestion de bases de données. Exemples : Microsoft Access, Apple File Maker Pro, MySQL, Oracle, SQL Server etc. DONC : • 1ère étape : ph c c p ( pp m ’ ch m ) • 2ème étape : f m c ck ff ’ c p m c étrangères (MYSQL) • 3ème étape : ’OMEKA chè m m « Database as a symbolic form » (lecture !!) « As a cultural form, a database represents the world as a list of items and it refuses to order this list. In contrast, a narrative creates a cause-and-efect trajectory of seemingly unordered items. Competing for the same territory of human culture, each claims an exclusive right to make meaning out of the world. »

Page 7: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Article de Manovitch ( f m c m c ’ mp c c ’ bases de données). Il décrit une tension entre les bases de données dans lesquelles il y a un m ’ m p c f rés (on associe des caractéristiques faisant appel à la même catégorie) et la narrativité. A c ’ c f m c pp c c ’ xp itions, les romans ou le cinéma Exemple : musée => cd-rom / site web : le lecteur peut consulter la collection sous diférents angles (chronologiques, thématiques, etc), facilité par la structure de la base de données. «New media reverse the relationship between the paradigm and the syntagm» • m : ’ m mêm => correspond à la notion de champs qui c ’ • Sy m : ch î m ’ m p p m => c p narrativité Traditionnellement, le syntagme nous est présenté mais le paradigme reste plutôt invisible. Mais cette relation est renversée avec les bases de données : • L c ch mp ’ (=p m ) cc interfaces de recherche, des listes et des menus. • Le syntagme doit être créé sur le moment. → «Database (the paradigm) is given material existence, while narrative (the syntagm) is de- materialized. Paradigm is privileged, syntagm is downplayed. Paradigm is real, syntagm is virtual» En réalité, les deux formes co-existent : - exemple de D c mm m ’E cyc p ). - x mp : ’œ D Ly ch ' m c ( x. L Highway) Vision du web comme anti-narrative : le lecteur choisit lui-mêm ch m ’ p c des hyperliens, qui évoluent et croissent en permanence. «The map has become larger than the territory» : les index sont plus présents que les documents eux-mêmes → Exemple : sites pornographiques qui consistent surtout de liens pointant vers les mêmes images Herméneutique et les bases de données (lecture!!) m : c mm ’ ? Distinction fondamentale entre des • données déterministes : peuvent être vérifiées à l'aide d'une théorie persistante (1+ 1 = 2 ) • données empiriques : j ’ p h m ’ mp (exemple de la définition du concept de « racisme ») « Il n’y a jamais de biunivocité nécessaire entre l’information empirique et le réel correspondant. Nous ne disposons d’aucun cadre de référence en vue de vérifier cette correspondance : ainsi les concepts de ‘racisme’, de ‘couche d’ozone’, de ‘maladie cardio-vasculaire’, etc, sont évolutifs et sujets à interprétation ». BOYDENS, I. Informatique, normes et temps. Bruxelles, 1999.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 8: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

O p ’ ; on développe un schéma reprenant les éléments essentiels pour décrire cette réalité. On vit dans un monde empirique évoluant dans le mp . L m ’ p m m . I f mp m . L hè ’I B y : elle a évalué la qualité des bases de données des sécurités sociales : pour structure la base de données, on utilise les notions de m c c. O c mp . I ’y p m c m ch m mêm . C’ mp le de vérifier en permanence si le monde actuel correspond toujours au schéma. Il faut alors comprendre le changement : se demander comment la base de données évolue dans le temps. Quelle approche vis-vis de la qualité ? • App ch c “D y” f m c • Critiquée par Isabelle Boydens, car la qualité est une notion relative • Q f : NON AS “ - c c ?” MAIS “c mm - p m c mp ?” • Bes ’ c p c mp ch m

« Temporalités étagées », Fernand Braudel • «La Méditerranée et le Monde méditerranéen à l'époque de Philippe II» • D pp m ’ c p m m c mp h historiques

• Temps long : évolutions du milieu • Temps intermédiaire : évolutions socio- économiques • Temps court : évolutions politiques

O p y ’h m B p è ( c m chômage, etc. dans le contexte de la sécurité sociale), des évolutions intermédiaires (cadre juridique dans le contexte de la sécurité sociale), des évolutions courtes. On applique la temporalité étagée : il y a des changements à différents niveaux qui ont tous un impact à un moment donné sur la base de données. « Temporalités étagées », Isabelle Boydens • Structuration des différentes interactions ayant un impact sur la qualité des bases de données dans le domaine de la sécurité sociale :

• Temps long : évolution de la jurisprudence • Temps intermédiaire : évolution technique • T mp c : c ( c c c p ‘c py c ’)

Où ??? C’ ’ ch p p f m p 40-50 ans. Mais de plus en plus, on va essayer de dépasser la barrière de la sémantique (le fait que le schéma va poser problème). A partir de la fin des années 90, énormément de données sont stockées en XML sur internet. L’ ’ XML c’ ’ c f f ch x p ê sur ’ mp p f m ch . L p èm m : il faut de nouveau faire appel à un schéma pour comprendre les données (telle balise veut dire ça). C’ RDF : modèle de données simplifié où la sémantique est reprise dans les données elles-mêmes. Il y a toujours un objet qui est décrit (sujet-prédicat-objet). La force de RDF ’ URL ( ) cc m . O m données plus claire.

Noe Gross
Noe Gross
Noe Gross
Page 9: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Exemple : Si on lance une requête sur Bruxelles sur Google, on voit apparaitre une case avec des f m c ’ULB m è RDF. 3. Internet et le web

Image d'un datacenter de Google. A ’h c y monopole quasi complet de Google comme moteur de recherche : c ô ( ’ c m c mm ’ f m etc.). Il y a quelques autres gros joueurs (Amazon et Facebook) dans la gestion des données. Suite au scandale de la NSA, la Commission européenne devient de plus en plus réticente à utiliser ce genre de data center aux Etats-Unis. De plus en plus, des raisons politiques sont mises avant pour avoir un hébergement de données aussi en Europe.

Historique d'internet et du web Le World Wide Web Le World Wide Web a été conçu par Tim Berners-Lee, un anglais, en 1989 en se basant principalement sur deux éléments existants : • Internet = l'infrastructure (un réseau de réseaux) existant déjà dans les années 70-80 • Hypertexte Il ne faut donc pas confondre internet et le web, l'internet en tant qu'infrastructure ayant déjà été développé auparavant. Internet • L’ p cè W W W c ’ f c w basé • C “ x” pp x E -Unis dans le contexte de la guerre froide p ’ ch ’ f m ’ f c . A p f 50 les américains ont massivement investi dans la recherche pou ’ê p p . D p h f ’ c c p c c mm . • Des protocoles décrivent comment des données passent entre un client et un serveur

Noe Gross
Page 10: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

La structure d'internet On y ’ c c è f c ( m A p de fonctionne). Eisenhower a investi dans un réseau distribué. En répartissant les connections, on ne veut pas avoir un serveur centralisé. Si certains j p p p ’ chemins. • L ’ p ’ c c p m (c mm p x mp téléphonique) mais la transmission de données binaires est très susceptible aux perturbations • La commutation de paquets permet une gestion de la transaction de données binaires au ’ • S c mm p p p . L’ c mm c ’ ’ p ’ c x p m c . Dans le c x ’ ’y p c mm c m p câ . Dè m m ù c mp c c m . C’ p on va travailler avec des petits paquets. Le message est découpé en paquets qui contiennent ’ f m c p pp L'hypertexte C’ f c c m . • L ’hyp x c î h : O (1934) - Traité de la documentation → O c y èm ’ f m 1934. C’ p c w . I ’ c m . • S p ’ f p p m p p davantage se comprendre entre eux. On a créé à Bruxelles un centre qui cataloguait toutes les ressources et auquel, en tant que citoyen, on pouvait faire appel. Beau projet mais utopiste de par ’ xp ’ f m : échec. R z ’ x x yp iens : • Unidirectionnel : ils vont dans un seul sens (= manière dont on utilise les liens sur le web) • Bidirectionnel! Ted Nelson (sociologue américain), considéré comme l'inventeur de l'hypertexte, a créé dans les 1980 y èm ’ f m (Xanadu) ressemblant au web avec des processus de f c m c mp x . D y èm è j’ ’ f ’ j renvoyer un lien vers cette personne. Mais dans le web, on utilise des biens unidirectionnels car des liens bidirectionnels impliqueraient que par exemple, le site du musée Van Gogh devrait vérifier tous les liens allant vers le site et des milliers de personnes le font. On peut extrêmement facilement créé des liens. On utilise donc des liens unidirectionnels pour ch ’ f m p m peuvent se créer dans le temps.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 11: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

→ Lecture recommandée : « The Web Time Forgot », New York Times (2008) World Wide Web et ses composantes Le web est une application conc è ’ ( x mp ' m ch ) p m ' cc ’ c m h . E m : • Protocole HTTP : obtenir les documents • C c p ’URL : f c m • Langage HTML : rédiger les documents • Serveur et navigateur web : héberger et consulter les documents 1° HTTP • HyperText Transfer Protocol • Protocole qui décrit la transmission de documents sur Internet dans lequel un navigateur web prend le rôle de client et une application le rôle de serveur 2° URL • Uniform Resource Locator • m ’ f c • Exemple: http://www.ulb.ac.be/facs/philo/index.html L’URL c mp : • du protocole de communication (http) • m m (www. . c. ) / ’ I • ch m ’ ccè (/f c /ph /) • du nom du fichier (index.html) C c . ’ ’ w p énorm m ’ c j y ’URL. L m m ’ m p mp . L m m p ’ x m . U f ’ chè m m p j ’ mp . Ex mp : http://bnpparibas.brol.com → Ic m m p pp ( cp ’ c ) Nom de domaine Cela donne une étiquette permettant de renvoyer à une adresse IP (un chiffre, moins difficile à c mp p ’ê h m ). U c m ’ c URL c c avantage économique énorme (vendre et revendre des noms de domaine). • Le nom de domaine est un masque sur une adresse IP, p.e. http://www.wikipedia.org est plus simple à mémoriser que http://91.198.174.2 • D x ’ m è m m • L’ ch ’ m m m c û 10 20 p (c N ë ?) • “D m m f m k ” : V c R .c m p $35 m 2007 • Article → Marijuana Names Snapped Up, in case of legalization (NY Times) : après la légalisation de marijana dans certains états aux USA, un jeune homme a décidé d'acheter des centaines de noms de domaine pour ensuite pouvoir un jour les revendre Depuis peu, on peut également créer de nouvelles extentions de noms de domaines (au lieu de .org, .be etc.)

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 12: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Dans certains contextes, il peut être utile de vous renseigner sur la p ’ m m ’ w . C f m p . U x mp ’ p z : http://www.networksolutions.com/whois/index.jsp → Who's behind that domain ? 3° HTML

• Le HyperText Markup Language est un langage de balisage qui permet de représenter des pages web • HTML 1.0 (1992) c ’ m p f c ent surtout m c (p. . ) ’ c m • Ces balises sont interprétées par le navigateur (=web browser) qui ensuite affiche le c m ’ c

C’ c ’ p c c r le web. On va utiliser des ’ f m . T ccè ’h m p mp c . Exemple : <htlm> <title> Salut </title> → Make up <bold> Jean </bold> → Make up <blink> firefox </blink> </htlm> O m ’ cc p m k -up, pour plaire aux utilisateurs. Blink est une balise qui a été intégrée par le précurseur de firefox (netscape), cela donne un effet de clignotement (aucun p c ’ c p ). I y ff c p avec netscape et le faire avec Internet Explorer : p èm ’ c mp . → Conditions sous-jacentes : deux conditions doivent être rencontrées pour le fonctionnement d'un langage de balisage : • Les balises doivent être clairement séparées du contenu • Les balises doivent suivre un logique cohérente et prévisible Succès de HTML • Le langage possède une syntaxe très simple qui ne doit pas forcément être respectée dans ses moindres détails • L f c ’hyp x c m è pp c

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 13: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• L w c c ’ p p HTML (Firefox ou IE p.e.), ont été mis gratuitement à la disponibilité des utilisateurs => moment clé économique ! Evolution de HTML • La popularité de HTML a engendré une pression pour aller plus loin avec la mise en page des pages web • Des balises supplémentaires ont été ajoutées au langage HTML pour configurer la mise en page • Les sociétés de design et de marketing se sont de plus en plus occupées de la publication sur w c c ’ c p x m f c ô le graphisme • Les producteurs de navigateurs web (Microsoft Internet Explorer contre Netscape) sont c c c (“ w w ”) p m m x m ’ Certains sites (comme crossbrowsertesting.com) proposent de comparer ces navigateurs. • Une des s ’ ff p c f - f ’ p c m p ’ ’ p m • Ces pratiques ont résulté dans des incompatibilités entre les navigateurs Sur c w (h p:// . c .c m) p p p ’ w partie du monde. En vert, on voit la popularité de Google Chrome (+ de 80% de personnes ’ m ). O I Exp plus populaire. En Chine, il y a une dominance de Microsoft. Ac m p m ’ c mp p . C impact économique très important.

W3C Internet Explorer ou Microsoft ont tout faire pour détruire Netscape. Contexte de forte concurrence.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 14: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• Le World Wide Web Consortium (W3C), fondé par Tim Berners Lee en 1994, veille sur la création des standards web (standardisation des données sur le web) Il est constitué de grandes sociétés (Google, Amazon, etc.) Chaque fois, quand on crée un nouveau htlm, cela prend des années. • Les grandes entreprises informatiques ont des représentants au sein de cette organisation • L W3C p ’ ff c mm p p mp producteurs de navigateurs ont toujours le choix de suivre les standards ou pas Serveur web - hébergement U p m c ( ’ f ’ p p ). J ’ y 4 5 p p . L m ’h m données est particulier. De plus en plus, ce service est proposé (par Amazon par exemple), mais il f f ch ’h x USA p x mp (p m sécurité). • Le code HTML et tous les fichiers associés (images, musique, vidéo, etc) doivent être hébergés sur un serveur web • Les serveurs possèdent du hard- f w p ’ m • Le hébergement est de plus en plus externalisé (problème sécu)

Etapes pour la création de votre page web • V f c ’ c c mp ’ULB • Modification des fichiers HTML • U ’ c FT p f f ch HTML Contenu du répertoire • index.html : ceci est votre «homepage», et vous ne pouvez pas modifier son nom ! • formation.html et interets.html : deux pages HTML supplémentaires • monstyle.css : un fichier CSS qui définit la mise en page des pages HTML Le W3S a créé CSS pour virer tout ce qui est make-up dans les pages HTML, on se concentre alors m c p ’ cc p p c m : le fichier CSS. Site : W3Schools (pour se documenter) • ulb.gif : une image, qui est affichée sur la page « formation.htlm »

Noe Gross
Noe Gross
Page 15: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Modification des fichiers HTML • Ouvrez les fichiers index.html, interets.html et formation.html dans un éditeur texte (Blocnotes ou Notepad sous Windows et TextEdit sous Mac) et faites des modifications dans le contenu de quelques balises • Quand vous sauvegardez un c m z ’ x .h m !

Modification du fichier CSS • Ouvrez le fichier monstyle.css dans un éditeur texte (Blocnotes ou Wordpad sous Windows et TextEdit sous Mac) et faites des modifications dans les paramètres • Changez par exemple la couleur de fond de gris vers du blanc • Quand vous sauvegardez un document, z ’ x .c ! Mise en ligne

• Une fois que vous comprenez les fichiers HTML / CSS et que votre compte sur le serveur est activé, vous devez utiliser un client FTP afin de vous connecter au serveur et mettre vos fichiers en ligne • Vous pouvez télécharger gratuitement par exemple Filezilla (www.filezilla-project.org) • Lancez le logiciel Filezilla • I z ’ p ( . . c. ) m p ( mêm que votre compte email) • T m z ’ m f ch f ch x.h m ( p ch ’ c ) ( p ’ c ) p /p c_h m / c “ p ” (c c m f ch )

Page 16: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

→ Tutoriel HTMP / CSS: http://www.w3.org/Style/Examples/011/firstcss.fr.html But ? • Comprendre le fonctionnement du web, et plus p c è m ’ du HTML/CSS • Ouvrir la boite noire : les services que vous utilisez sur le web (Facebook, MySpace, etc) ne p z ’ xp Constat • L c p c ’ c ligne est extrêmement aisée, mais cette liberté mène aussi à des abus • V p z f pp p c ( y ’URL c) m ’ y c mêm f m .

Page 17: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

4. Les moteurs de recherche • http://google.com Google a 70% du marché des moteurs de recherche mondialement. Les premiers résultats, lors ’ ch ch c . C c m f f Google. Il a un système permettant aux utilisateurs de laisser des commentaires. Google a une masse ’ f m x êm m p .

• http://www.bing.com C’ m ch ch M c f ’ c m c m ch . f Google et Microsoft collaborent contre leurs concurrents. Les collaborations et rachats influencent ’ . • https://duckduckgo.com C c 2008. C m ’ x p p c données personnelles des utilisateurs ne seront pas collectionnées (cf. scandale NSA). Dix personnes avec des goûts et des localisations différentes auront les mêmes résultats >< les résultats sur Google et Bing sont influencés par nos préférences et localisation. Si on va par exemple dans le « account history » de Google, on peut voir les endroits où on a été, les choses qu'on a cherchées, regardées etc. Ducklogo a un accord avec Yelp (service permettant de donner des commentaires sur des endroits) : les commentaires élus par les utilisateurs sont mis en avant. • http://foursquare.com • http://airbnb.com L ch ch ’ ’ f m c mm . A p problème du spaming et les aspects économiques. 2 grands enjeux au niveau de la recherche dans les années à venir : • ’ p c c ( p p c mm sur le poids de nos infos sur le web en analysant le nb de nos followers par exemple) • la sémantique : les moteurs de recherche désambiguïsent le sens de nos recherches L j 5 è ’ w m / w . L’ mp c c ’ cô c p rapport à notre requête. Il y a une compréhension des données. N m y p èm ’ ’ f m . C c p RDF : The Knowledge Graph (nom du concept chez Google)

Noe Gross
Page 18: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Principe : des entités ont des attributs et entre ces entités, il y a des relations. Le problème avec ce m è è ’ x p ’ . A c m c mêm ’y p comprendre le schéma des bases de données. Approche décentralisée. m ’ê h m mais également une machine peut faire une requête très complexe. Constat • L c p c ’ c x êm m m c liberté mène aussi à des abus • Vous pouvez faire appel à p c ’

• y ’URL • analyse des liens

• M ’ y c mêm f m Pratiques de « phishing » C’ m h k . : ’ f m c mp c ’ p c c . A partir de Google, on peut voir les sites qui pointent vers celui-ci (link:martinlutherking.org) : on c mp c p p m ’ x êm x USA.

La recherche d’information sur le web Evolution de la recherche sur le web : historique

Noe Gross
Noe Gross
Noe Gross
Page 19: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• Même si on arrive à automatiser bcp de chose, une grande partie du web sémantique est en c c ’ x h m . • L p m w ’ p . Au début du web, on ajoutait systématiquement à la fin un lien vers une page contenant uniquement des liens. Pendant longtemps, les personnes étaient dépendantes des liens entre les sites web pour naviguer sur le web. • Yahoo! (= un annuaire) propose en 1994 un recensement par catégories thématiques hiérarchisées. Entre 1995 et 1998, Yahoo était le plus important outil de recherche. Il a proposé un catalogue du web créé par des êtres humains. En dessous de chaque catégorie, un ensemble de sites p p . C ’ fonctionné que pendant quelques années. Ensuite, indexation automatisée de Google. • En 1998, Open Directory projet développe une alternative non-c mm c c ’ volontaires. C'est un répertoire de sites web géré par une vaste communauté d'éditeurs bénévoles provenant du monde entier, chacun étant responsable de vérifier l'exactitude et la catégorisation des sites dans une ou plusieurs catégories. • Google (= un moteur de recherche) lance ces services en 1996

L c c p ’ x Les annuaires et les moteurs de recherche représentent deux approches très différentes par rapport à ’ x ’ f m :

w Indexation humaine : un annuaire fait appel à des humains qui décrivent le contenu ’ c m c ô . L’ x h m p f pp c ô p ’ x ch ch c m : w Langage libre : c “ c ” p x mp ( p liens favoris sur un site spécialisé comme diggg.com). w Langage contrôlé : revient au domaine des bibliothèques, archives et centres de documentation, qui font appel à des plans classifications et des thésaurus.

w Avantage : c ô p m ’ p èm p y m (jaguar, Hilton) et synonymie (vélo – bicyclette). w Désavantages :

w Le plus grand désavantage est que le coût de la création d'un vocabulaire contrôlé et le processus d'indexation est très élevé (il faut payer les gens).

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 20: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

w La mise à jour de ce genre de vocabulaire est complexe (exemple de la grippe maxicaine dans le MeSH : Medical Subject Headings). w De plus, le vocabulaire contrôlé impose une sorte de vision du monde qui ne représente pas toujours la réalité et est parfois trop rigide/réductrice. Exemple : dans les bibliothèques, la classification peut donner plus ou moins ’ mp c c .

w Indexation full-text/automatisée : m ’ x ch î c c è ’ ê c m ck ’ x m ’ x n. w App ch “ ck y” f c ch ch ’ f m

w Avantages : w L’ x f -text est complètement automatisée w Prend directement en compte des changements dans les documents indexés (exemple de la grippe mexicaine directement répertoriée)

w Désavantage : les problèmes liés aux synonymie et polysémie. Fonctionnement d'un moteur de recherche Deux étapes fondamentales : w Indexation automatisée des documents web par un “crawler” ck ’ x base de données w Lors de la recherche, la chaîne de caractères que vous insérez comme requête est comparée c ’ x. E classés par ordre de pertinence. 1° Crawler Crawler = “W

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 21: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

c w ” “ p ” “ ” c p c w f ’ x c x pages web nouvelles ou modifiées. Un crawler peut également être utilisé par un spammer pour collectionner des adresses email. L c w m c p c ch (p w c m m ’ p ccè p p ). L p ch c p p è . S p m j p p c m f c cc la page via le cache.

Après on voit : this is Google's cache of www.ulb.ac.be. It is a snapshot of the page as it appeared on 10 Nov 2012 10:37 GMT. The current page could have changed in the meantime. Q ’ f ch ch : ce p p ’ x G y c’ m c -ci qui va renvoyer à une page html. Quand on fait une requête sur w c p ccè c ’ è w m ’ x G . L p èm e pp m p h m ’ f m c ’ x. Dè ’ met qqch sur un secteur et que le Crawler passe, on est plus seul propriétaire de nos données. Exemple : Google a des accords avec Twitter ou des blogs beaucoup consultés, il paramètre le c w f c yp c . L c w p p m (p ’ x Google) selon ces paramètres. Quelle information est prise en compte? Le crawler analyse le code html, mais seulement en partie :

- C x ff ch p ’h m - B “ ” - B “m k yw ” : MAIS spamming - B “m c p ” : p ’ mp c k m ff ’ f m f m x - B “ ” ’ m *« Spamming » : ajouter des éléments qui n'ont à

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 22: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

priori rien à voir dans un certain but. Puisque le crawler analyse les balises meta keywords, des programmes insèrent une série de mots-clés dans cette balise pour que le site apparaisse le plus possible lors de différentes recherches.

De 1998 à 2005-2006, des personnes ajoutaient des mots-clés dans les balises afin de rendre spécifiques le contenu et la thématique de la page web. Cela a tout de suite donné lieu à des techniques de spamming. Très rapidement, les moteurs de recherche ont décidé de ne plus tenir compte de ce genre de mots-c . N m c’ pp ch c x web sémantique : y ’ p h m ’ m c x ’ f ’ m . O m p xp c . O m ’ c p h m p ’ f h m p c mp . Indexation d’images

w L m h p c : x c ’attribut HTML alt <img c=" . f" ="L ’ULB" />. C m h p m pp m d'application permettant de rechercher des images à partir de ses caractéristiques visuelles (Content-based Image Retrieval), à l'opposé de la recherche d'image par mots clés. La plus connue de ces applications est Google Goggles. w M c pp c c f “ m c p”* ff c entre le sens dénotatif (=deux personnes se tiennent la main) et le sens connotatif (=un couple) ’ c m . U m c c -ci ne pouvait être interprété par m ch . U m ch ch ’ HTML. Un ordinateur ’h c c c / c î f m ’ m ( tatif) mais ’ p c mp c f ( c ).

Le sens connotatif qu'on veut dégager ici est la fraîcheur (marché, Italie etc.) et ça les applications ne prennent pas en compte. Elle ne comprennent que le sens dénotatif : panier de courses comme simple ensemble de formes et de couleurs.

2° Comment classer ? Facteurs d’impact sur le classement

w L p c ’ m -clé de la requête dans la balise <title>. Cette balise est très importante car elle sera reprise dans ’ ff ch ’ m ch ch . w L p ’ <a href="ulb.ac.be">Viens à l’ULB!</a> w Ceci peut être abusé dans le cas du Googlebombing p. .“m f ” → pointe p w G B h. U m ’ x c directement lié à ces termes. Cela illustre une problématique : montrer aux gens comment on p w p ff c c m f y ’ . w Quantité et qualité des liens qui pointent vers le site (=global link authority) → “PageRank” algorithm. S j p c ’ c è ’UCL H m -citent, la citation de Harvard aura beaucoup plus de valeur. w L'âge du site w L’ ation des mots clés dans le corps du site

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 23: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Le site B est référencé dans de nombreux autres sites mineurs, il est donc classé en première position. Mais le site C R k c c ’ p seulement la quantité de liens qui est important mais aussi la qualité. On voit qu'il est renseigné par un site important. Si on veut que notre site arrive haut dans les résultats, il f y ’ f m ch ch ’ y c notoriété, et que celui-ci pointe vers notre site omeka.

Facteurs négatifs, qui vont faire descendre un site dans le classement

w L’ p h c w x contenu du site. S C w p ’ p p c’ c contenu. w La présence de contenu non-original. Si on fait des copiers-collers de Wikipédia, cela aura un impact négatif. w Les liens vers des sites de pauvre qualité . w La pratique de la vente de liens. w L’ “ ” “m ” p p . S c c mm p mm c p ’ x G c p p ’ ccè m ch ch .

Spamming

w Envoie de messages publicitaires non sollicités, économiquement viable à cause des frais limités w Contextes : moteurs de recherche, email, chat, sms, blogs, youtube, réseaux sociaux w h mè “ k f m ” “c ck f m ” “c f m ” “ f ” w Potentiel énorme “ c m ” w Zone grise entre des pratiques légales et illégales

A l'origine, spam veut dire corn beaf et un sketch (Monty Python) a repris le titre de spam (on met c ’ mp ). I y p mm p p réseaux sociaux. Des personnes vont prétendre être des utilisateurs pour envoyer des messages publicitaires. w L k f m = c mm p mm G ch cp ’ mp c x des gens ont créé des sites sans contenu mais proposant, con m ’ c sur le site des gens pour booster artificiellement leur PageRank. w Click farms : on exploite des personnes qui doivent passer des heures à cliquer sur des campagnes publicitaires des concurrents pour booster les frais engendrés par la pub en ligne pour nuire aux concurrents. w Content farms : Sites qui vont publier des articles bidons avec des titres qui vont plaire au p c. I ’ c f m m m contenu promotionnel. w Astroturfing (=gazon artificel) : tout type de message frauduleux envoyés sur Tripadvisor par exemple.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 24: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Search Engine Optimization (SEO) Des informaticiens se spécialisent dans l'optimisation de sites afin que ceux-ci apparaissent en bonne position dans le classement des résultats de recherche. Ils démontrent que :

w “S ch m k ” ff 3x p mp ff ch p c w 41% f m ê ’ p sur la première page, et 88% après trois pages.

w G m p c y èm PayPerClick p p . I ’ p c pp p m è p ’ ch ch p ’ p p m c . ch f ’ c c c ’ p p y mm G . L’ p p è x c m c m ’ rendus sur son site. Mais on voit que la “N ch” eur 3x plus importante que le PPC (PayPerClick). Pourtant, les entreprises dépensent 80% de leur budget de online marketing à PPC car grâce à cela ils dressent des statistiques sur le nombre d'utilisateurs visitant leur site.

On veut apparaître en haut des résultats de recherche. Il y a deux approches : • Si on veut augmenter la visibilité de son site, il y a les résultats organiques basés sur le type de contenu du site. • L’ pp ch c p c . M c m p ds bcp p mp ’ mp c c ( 50% ). p m j du budget de marketing pour acheter des liens publicitaires et on ne va pas investir dans la réécriture du site. La raison est : on peut directement ’ mp c c mp p c . contre, en payant un journaliste/éditeur web pour vérifier les liens par rapport au contenu des sites, ’y p m c . On achète des mots-clés et comme ça, dès ’ p sonne tape notre mot clé et clique sur notre lien, on paie Google. Aucun être humain ne vérifie quoi que ce soit, tout est automatisé. Sorte de vente aux enchères combinée à un contrôle qualité des annonces.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 25: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

→ On voit où les utilisateurs se focalisent (heatmap). La plupart regarde les résultats organiques et peu les publicités. → http://www.youtube.com/watch?v=PjOHTFRaBWA&feature=youtu.be : vidéo économiste en chef de Google Liaison des concepts par ppérateurs booléns Chaque moteur de recherche implémente des commandes spécifiques. Un survol des opérateurs clés de Google est donc nécessaire puisqu'il s'agit du moteur de recherche le plus utilisé. Op ’ c – Google

w Ajout automatique du opérateur AND entre vos termes de recherche w Autres opérations automatisées : - Suppression des mots vides : le, la, the, who - Stemming :Australia => Australian w Af ’ c p m p z m (“ ”) qui spécifient que vous cherchez uniquement cette chaîne de caractères

Op ’ - Google

w Opérateur pour inclure des synonymes ou des concepts liés w Ex mp : “ OR k OR cyc ” “ c c OR h y OR p” “A OR E ” w Alternative : utilisation du tilde (~) w Exemple : ~bike ~trip ~England

Opérateur de complémentation – Google

w Opérateur pour exclure certains types de résultats (NOT) w U “-” w Exemple : java -coffee -dance => résultats concernant le langage de programmation

Opérateurs spécifiques – Google

Noe Gross
Noe Gross
Noe Gross
Page 26: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Quelques pistes sur les évolutions futures • R x c x c mm p ’ ’ f m c xp ’h c entre Facebook et Google

• « Location-based search » “Internet of things” RFID : p ’ ccè ’ f m ’ pp c c mm p x mp Foursquare

• L c c ’ m ph m p y pp m • L’ c ch Radio Frequency Identity (RFID) p m ’ ff

’ f m c c 5. La numérisation L m c p m (= ’ p c p par ’ ’ ) → illustration de collaboration entre le public et secteur privé. On essaie ’ p c. La qualité compte et non pas la quantité pour les sources primaires et secondaires. Il faut les décrire de façon critique et originale avec des métadonnées (nécessité d'être expert). Les métadonnées des sources secondaires sont cependant plus simples : articles de vulgarisation, etc. → Site : maak je eigen meesterwerk : c p ’ C mm p . O essaie à tout prix que le secteur culturel ait un impact économique. On essaie, par des voies différentes, de monétiser ce secteur. Ce site est presque réduit à un web shop (90% des fonctionnalités tournent autour de la vente). Cela permet néanmoins de télécharger des images à haute définition et les métadonnées sont de haut niveau. → Google a aussi lancé un projet : Google Art Projet. On a accès à des images de très haute résolution. Un des meilleurs exemples de numérisation de qualité. → Flickr = plateforme privée, commerciale. On va chercher le grand public sur ce genre de plateforme. Pourquoi aborder les projets de numérisation ? Ac m hè y x ch ’E B ch ch h ’ m s, etc. pour travailler sur des projets de numérisation mais ils sont très durs à . A c mp c ch ' xp c è . S’ f m

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 27: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

en grande masse, il faut faire appel à une équipe externe. Les projets m p p ê p f m c c c p f m f ch c m ... ’ mp c p ’ cc ’ c . De tels p j c p f y p f xp c c c mp c ch . T f m x p j m ch p c ’ p c p ou le planning o p c ’ ’ p p . D p c c p è p c ff mm ’ ff c ch ’ f m c f p j m c .

Approche holistique de la numérisation L c p c yp p j . E ff c p j p mp m c m p c p p ’ p c . c , les c p p z c p p p f m . Sur le cercle, en rouge on voit les différentes étapes de la numérisation. En orange, on voit les ressources ’ f p c étapes. Les différentes étapes d'un projet de numérisation 1° Savoir exactement ce qu’on veut numériser, définir les objectifs

Les objectifs du projet peuvent varier d'un affichage sur l'écran d'un objet (publication) jusqu'à la possibilité d'imprimer une copie exacte de l'objet (conservation). Ces finalités ont un impact énorme pour la suite du projet. La résolution (71-300dpi) choisie déterminera par exemple le type et le volume de stockage à prévoir. Il y a aussi différentes contraintes dont il faut tenir compte : budget, caractéristiques de l'objet, droits d'auteur. Exemple : R jk M m f ’ ph p c ph c . L’ j j m ieu entre les ambitions, les désirs et le budget disponible. Dans le contexte économique actuel, depuis 10-15 ans, on travailler toujours sur m p j . T yp ’ p p pp p j ( m w soit le fédéral, c. f pp p j c p x c è ). C’ p mp m c’ è m f m c’ p p j ( pp ’ ff ). pp ’ ff f c mp ndre le contenu mais aussi le contexte technique (concurrentiel entre institutions). Manque de financements en Europe. U f ’ h ’ c f c c ’ m . 2° Sélection C p p j m c p èm ’ : c p è c p f c î c p c . L’ p

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 28: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

c c m m c p imordiale et difficile. S c p c ’ p p ( c ’ c c c : pas assez de ressources humaines), deux solutions pragmatiques sont envisageables : • Numérisation de masse : tout numériser car il coutera plus cher de faire une sélection que de tout numériser. C'est une stratégie qui peut s'avérer intéressante si la numérisation peut être fortemet automatisée, avec un minimum d'intervention humaine. • « Scan on demand » : faire une numérisation sur demande, la numérisation d'une collection ê ( x. c’ c ’Am m f : un fond numérique est constitué en fonction des souhaits directs des utilisateurs. Problème : on ne numérise que ce qui est populaire actuellement.) 3° La numérisation L m mm ’ p p p j m . C p f x p ’ ’ ’ p m xp moyens ch è p ’ p è . D p ’ m m ’ p m m p c p ’ p . T f c c c p p p ’ è c mp x (cf. ch m ) c f c p fè mêm f c p → désavantage du « outsourcing ». Pour une bonne numérisation, la qualité de la lumière est essentielle. Il faut faire ça dans un m ù ’y p f ê è m .

The Art Institute of Chicago O ff p ’ c ( p c î ). E h étapes essentielles. En parallèle, des recherches documentaires sur les métadonnées préexistantes à notre objet sont nécessaires. D_OOOO1… = c f ch ê c ’ f m CR (= p p C ) format DNG (plus ouvert). Il y a donc déjà tout un processing derrière ces images. Après photoshop → format TIFF. p p ff f m p c mp ’ m . I f c y conserver les fichiers de sources.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 29: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Le plus dur est de faire un lien avec les métadonnées préexistantes. Souvent, les numéros ’ c ’ f . D p m m / ( m ) m ’ p ’ ê humain les comprenne en les lisant. Problème : dans une organisation, des départements sont créés puis supprimés → L m ’ p . D 90 m f m ’ p p m m . I y p ’ c h c . on va stocker les images sur un disque dur ; ’ f . O f f f m m ’ ( m f plusieurs fois au cours du temps). V c mp x c è ’ f m grande collection (plus de 1000 images), on va externaliser ce type de procédure. On va « outsourcer » à des entreprises spécialisées. Aucune B ’ c p c ch f m m . Une fois choisi si m f x m x ch x ê f f ’ m c m ’ :

→ A. Représentation numérique des images : • Des images vectorielles (→images créées à partie d'un logarithme/script) p c m c è ’ c ’ (c ph ch c ...). L m c c mp f m m (ellipses, rectangles,...) dont les attributs (couleur, position,...) f m . C m è c f p c ’ m ( p c.) m p p p m . c c yp ’ m c c yp Adobe Illustrator ou directement le langage SVG (Scalable Vector Graphics). U m c ’ p p . Si on f z m ch (>< m m c ’ j réel).

• Pour ce cours, nous nous consacrerons surtout aux images matricielles → photos ( m p) p c c c f m m . C m c ’ m p c (p x ). U p x ’ p f x c -c ff f p xp m D I (Dots per inch). j c c yp ’ m mp c ch ’ m Adobe Photoshop.

→ B. Résolution (distinction des détails dans l'espace = L x l en pixels) → C. Plage dynamique (différence tonale entre le blanc le + clair et le noir le + foncé)

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 30: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

→ D. Taille des fichiers (dépend des éléments précédents) → F. Compression (reduction de l'image pour le stockage et le transport) → G. Formats de fichiers :

• RAW : fichiers bruts créés par une caméra ou un scanner → négatif numérique (aucun c ’ j c c ) ’ p p . Dè ’ k images, les fichiers RAW prennent énormément de place. • PNG (avant : GIF) : format ouvert destiné à remplacer GIF, utilisé pour la publication d'images sur le web • JPEG : format de compression pour les photographies numériques • TIFF : permet la compression sans perte de données (>< JPEG), utilisé pour l'archivage • PDF : un des formats les plus connus au monde (Portable Document Format) qui est le format propriétaire géré par Adobe. Celui-ci présente plusieurs avantages :

• Cross-platform (fonctionne sur mac, windows, linux etc.) • Intégration avec le web • Richesse en terme de recherche, de navigation et d'annotation • Fonctions de signature numérique de validation • Supporte un mode « image » et « texte » • Format pérenne, durable (depuis 1993) Evolution des formats : différence entre standards : • Standards « de jure » : sont le résultat d'une procédure de standardisation formelle par un comité (consortium), peuvent être ouverts (HTML, W3C) ou clos (ISO). • Standards « de facto » : des produits, services et pratiques utilisés par la majorotés des utilisateurs (PDF, Adobe). → But : offrir une certaine stabilité dans un monde dynamique, mais doivent nécessairement évoluer eux-même.

4° Création de méta-données Méta- = c m c ’ j . C t les données qui décrivent une autre donnée. Le terme est utilisé depuis 10,15 ans pour désigner la documentation crée pour rendre un objet (page web, texte, image, son etc.) accessible en ligne ou dans une base de données. L'explosion du web a lancé une réflexion concernant la description structurée des ressources numériques. L’ pp c “C - Im R ” è m p c c ù c f c p p mp f. L ch ch ’ m p m - c m h p . Mais la création de méta-données est l'étape la plus chère et complexe car cela reste une opération intellectuelle humaine. Depuis les années 80, on essaie de reconnaître les f m m ’ p p f c f. I faut passer par une création humaine qui coute cher. Des images sans métadonnées qui décrivent leur contenu sont inexploitables dans le contexte d'une institution culturelle. L'étape est donc primordiale. La standardisation des métadonnées permet l'interopérabilité entre les collections différentes et hétérogènes. De plus en plus, le but est de faire interagir les collections entre elles. Il faut ’ pp ch c m ntaire. • Standard indépendant d'un domaine d'application → Dublin Core : 15 caractéristiques, champs (metadata elements) qui nous permettent de décrire un objet (très générique). Il fut décidé

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 31: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

lors du deuxième colloque World Wide Web en 1994 : on a exprimé le besoin d'un « core » standard de méta-données, permettant de décrire des ressources en ligne, afin de faciliter la recherche d'information. Les 15 champs ont été définis comme un standard minimal pour la description d'une ressource (identifier, title, creator, contributor, publisher, subject, description, coverage, format, type, date, relation, source, rights, language). Le Dublin Core est fortement répandu comme format d'échange car il permet de lier des concepts similaires (sculpteur et peintre sont réunis sous le même champ Creator, ce qui est pratique pour faire une recherche sur un artiste qui était à la fois peintre et sculpteur). C'est ce genre d'approche qui est utilisée dans une base de données pour Europeana. • Dè ’ m particulier, il y a des standards spécifiques à un domaine d'application (MARC pour les bibliothèques, VRA/CDWA pour les musées, EAD pour les archives). Il y a en effet une différence entre les pratiques documentaires des différentes institutions : les musées décrivent des objets alors que les bibliothèques dérivent le contexte/le contenu intellectuel (auteur, thématique, etc. du livre). Les archives ont encore une autre approche : ’ fond (un ensemble de documents par rapport à un même contexte administratif : la boite contenant les documents individuels). Cela aura un impact sur la création de la page de données. Chaque type ’ c m ff . L c m - p f m x p èm : • L p c m f - p c mm c x (p x mp c 1937) p (Scan Labs et 2011) ? • Granularité : quel niveau de détail de la description ? • L c m - âch c mp x m p f c p m f. J ’ x 70-80, dans la p p c’ c f f métadonnées. Mais de plus en plus, on a délégué cette tâche au personnel administratif. • Dè p p c p è p ’ c m - c mp p èm c m ’ p j . • La mauvaise qualité des méta-données est la principale source de l'échec des projets de numérisation dans le secteur culturel. S ? L c m - m c p mp p p 80% du ’ p j m . C’ c c p p p c m c m c . Stratégies proposées : • Outsourcing ou délocalisation : L hè x E -Unis ont une longue tradition ’ ch c ph p p c mm OCLC. C pp ch ff c m p c p . L -c ’ c m m - p p c E p ’ ou en Afrique. • Automatisation : M m c c m - c ê p c c c h m . Toutefois, des applications NED (Named Entity Recognition-Extraction) comme OpenCalais F y m p m j ’ f c m ’ ’ ... m m .

• La technologie OCR (Optical Character Recognition) m m p avant dans le processus d'automatisation. Il s'agit d'une technique qui permet de convertir des images en documents textuels. Cette technologie permet donc de permettre des recherches full-text et de réduire la taille des fichiers. Toute fois, le taux d'erreur reste élevé (dans des conditions optimales on atteint un niveau de précision de 99,9%). C'est ce qui est par exemple utilisé dans les projets de journaux historiques. • Préparation pour l'étape OCR :

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 32: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• Spécification de l'alphabet, de la typogrpahie et les accents et caractères diacritiques utilisés dans le corpus à numériser. • Processus d'apprentissage : parfois on doit passer à l'encodage de patterns que le logiciel ne reconnait pas. • Construction de dictionnaires par rapport au domaine spécifique du corpus.

• Crowdsourcing : utilisation de c ' c -f ' m p - c p c âch m ff c p mp y p . Cadre dans le hype autour du web 2.0 ou le web soc . D m è c c è p p j xp m c ’ j m -c c mm p . L'ajout de ce genre de fonctionnalité cadre plutôt dans une stratégie de communication d'une institution et démontre l'effet des hypes autour des technologies. 5° Publication A p p c p p m f ’ outils de gestion des collections. U y èm c c p m f m - p m c c ô ’ ccè ’ p c w . C yp y èm c (MySQL p. .) c f c ph p m p m er le w kf w c m . L c c j x m ’ p x ch p : succession des systèmes de documentation allant d'un registre papier à une base de données. Passons main m . L p c ’ c c m x yp ff ê p : • L Q y : p m x ch ch j p c f • Le Browsing : permet aux c c c ’ h m ’ p - c ’œ 6° Préservation des données numériques L ck ’ p p èm ’ p j m . E ff ck ( ) p f . L p c promettent un Mean Time Between Failure (MTBF, temps moyen entre pannes) de 1000 ans mais dans la pratique on observe un annual failure rate 3%. F c c p èm f c mp p p mm x ph ff . U m y m p f c mp p c ’ ’ seul bit rend un f ch c mp 99 8% c p f m ’ f m c mp è m è ff . x mp ch f ch BM -c mp c p ch 25 ; f ch GIF c mp c seule erreur. O p èm f c mp ’ p èm p f p m mm p p p ’ humaine, ch m c ’ p c ph ...

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 33: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

6. Techniques et ressources documentaires électroniques : explorer le deep web L’ ’ f m w m ch ch ( : cf è c m ch ch yp G f c c x automatique → contenu de tout type ; les moteurs de recherche sont limités par leur fonction >< alors que l'indexation faite par des bibliothécaires donne du contenu scientifique). • L c ’ c f m c c p mm ’ c . • L pp p p m :

• D’ xp p-web, découvrir info cachée mais aussi beaucoup plus structurée • D m ch ch p ff c c âc ch p p

Néanmoins Google Scolar a cette vocation à rechercher dans le contenu scientifique : c'est un métamoteur de recherche spécialisé dans le contenu scientifique. 1° Cible+ On se focalisera ici sur l'exploration du deep-web à la recherche des sources secondaires. On peut y avoir accès via le site des bibliothèques de l'ULB (l'accès se fait également chez soi via EZ-proxy pour avoir accès aux ressources payantes de l'ULB). → CIBLE + : outil de découverte • Permet d'accéder rapidement à l'aide d'un écran de type « Google » à toute une documentation scientifique mise à notre disposition par les Bibliothèques, que ce soit en version imprimée ou électronique : périodiques, livres, mémoires, thèses, DVD etc. • Explore simultanément des catalogues de bibliothèques, des plateformes de périodiques et de livres électroniques, des bases de données etc. • Permet de localiser physiquement rapidement de nombreux documents imprimés et d'accéder aux textes complets de nombreuses ressources électroniques • Permet d'affiner les résultats à l'aide de facettes • Est un point d'accès aux outils plus spécialisés qu'il ne remplace pas pour les recherches approfondies A quelles ressources Cible+ donne accès ? On y trouve le catalogue, la digithèque (projet de m ’ y p m . O y c ’ULB p p c.) ’ c hè c. Le but de Cible est de trouver des ressources pertinentes. Mais qu'est-ce qu'une ressource

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 34: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

pertinente ? C’ f m . U f p c ’ ch ch p ê m p c ’ ch ch . I f ’ y c ’ ch ch c ’ . E f c ch ch p p p p c f ch ch ’ p p . La grande difficulté dans Cible + va être de limiter les résultats (car 1 milliard de contenus individuels indexés). Comment raffiner notre recherche dans ce cas ? → Grâce aux facettes – ensemble du menu se trouvant sur la gauche : on peut préciser la recherche grâce à la date de publication, à la discipline, l'auteur, le sujet, le type de document (livre, périodique..? + sous catégories [articles de presse ou magazines n'ont pas de vocation à fournir du contenu scientifique par exemple]) etc. Dans Cible+ on part d'une requête plus généraliste puis on utilise les facettes. Si on veut que les ressources soient disponibles à proximité on doit cocher « catalogue des bibliohtèques de l'ULB ». Une autre facette peut-être la langue : Cible+ est une base de données multilingue mais la majorité des sources sont en anglais. Contrairement à Google et à la plupart des autres moteurs de recherche de type anglo-saxon où ’ cc m j c /m c ’ p ’ mp c C +. L'idéal à atteindre dans la recherche : être à la fois pertinent et exhaustif !

→ Pour atteindre cet objectif, on peut se servir des opérateurs booléens.

Maintenant, comment localiser les ressources ? Cible+ nous indique la bibliothèque dans lesquelles elles se trouvent + leur étage de référence + leur cote de rangement. Attention, si le livre est en SILO (fermé), il faut faire une demande pour le consulter. Si on veut localiser des ressources sur internet, on peut cliquer sur « élargir à d'autres ressources documentaires hors ULB », en effet dans Cible+, on ne trouve pas seulement ce qui se trouve à l'ULB. On peut alors rassembler et exporter des notices bibliographiques en cliquant sur la petite enveloppe en haut à droite. On peut ensuite sélectionner un style et un format.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 35: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

2° Google Scholar Depuis 2004, Google Scholar explore le deep-web. C'est un méta-moteur permettant de chercher dans toute une série de moteurs de recherche (plus englobant que Cible+) → Vocation universelle : exploration et indexation de contenus scientifiques, tout pourvu que ce soit scientifique. Elle a pour c ’ê G c c f . O ’y p ’ c p p magazines, pas de romans, etc. Mais contrairement à Cible +, sans paramétrer, on a pas accès aux ressources payantes. Comparaison d'une recherche sur un auteur : • Sur Google : informations bibliographiques • Sur Google Scholar : informations sur ce qu'il a écrit Paramétrage : appuyer sur l'onglet « paramètres » (roue dentée). Puis on sélectionne les « liens vers des bibliothèques » et on choisit l'ULB (V-Link). En faisant cela, Google Scholar va automatiquement chercher dans le catalogue des bibliothèques pour lesquels l'ULB possède l'abonnement à la ressource et/ou proposer des liens vers de potentiels détenteurs d'une version papier/électronique. Pour cela, il faut à nouveau se connecter à EZ-Proxy si on est en dehors de la portée du réseau ULB (http://ezproxy.ulb.ac.be/login?url=monURL ou http://scholar.google.be.ezproxy.ulb.ac.be/). On peut alors sélectionner sur la droite des liens tels que « [PDF] à partir de jstor.org » ou « fulltext via V-link @ ULB ». D'où vient l'information indexée sur Google Scholar ? Ce sont des sources dites « académiques » et/ou « scientifiques » qui viennent de : • Sites web d'institutions, de sociétés savantes, d'unités de recherche • Dépôts institutionnels (Di-fusion lancé en 2009 par l'ULB → répertoire des travaux institutionnels de l'ULB) • Bases de données d'éditeurs de revues scientifiques • Google Books (projet de numérisation de grande échelle de monographiques : dans Google Scholar, on trouve seulement les résultats scientifiques de Google Books) • Archives en Open-Acess • .. Mais problème : certaines sources de grande qualité ne sont pas incluses dans l'index de Google : • Jusqu'en 2007, toute la documentation de ScienceDirect était absente (car le producteur de ScienceDirect produisait une base de données concurrente à GS) • Aujourd'hui certains journaux scientifiques sont encore absents • GS ne suit pas suffisamment la création de nouvelles archives ouvertes et de nouveaux dépôts institutionnels (Di-fusion absent) → Donc comme dans Google : on ne sait pas trop ce qui est indexé, on est face à une boite noire, on ne sait pas comment ça marche, ce qui s'y trouve etc. Raisons de cette indexation lacunaire et faiblesses de GS • Les éditeurs proposent un service comparable à celui de GS (ex. Elsevier avec Scirus) et priver GS d'une partie importante de ressources qu'ils possèdent permet de valoriser leur outil. • Certains éditeurs se réservent l'exclusivité de la visibilité de leurs titres. • Des limitations techniques empêchent les web-crawler de GS d'explorer suffisamment les contenus scientifiques (principalement non-commerciaux). • Pas d'information sur la taille de l'index de GS, le nombre de résultats de recherche est également souvent incohérent. • Pas d'information précise sur les sources qui sont crawlées. • De plus, les options de recherche sont très limitées (// Google). Les filtres sont bcp moins

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 36: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

importants que dans Cible +. • Inconsistance dans la recherche par champ (auteur) • Par ailleurs, Google Scholar n'est passoumis à des contraintes de sécurité (spamindexing) = on peut manipuler le classement des résultats dans Google Scholar (en se citant). Les premiers résultats ne sont donc pas forcément les plus pertinents ; c’ m p → principes de l'algorithme de classement contestables Forces de GS : • Couverture de la littérature indexée en augmentation rapide • Recherche dans le full-text = doc. dans son entièreté (y compris dans les monographies) • Grande diversité des types de documents indexés • Répartition relativement homogène entre langue et pays d'origine des documents indexés • Valorise les collections en Open Acess en provenance des D.I, A.O... • Pas de filtre culturel : majorité de contenus en anglais mais aussi des résultats en français • On y trouve aussi ce qui n'est pas publié sous forme de bouquins ou d'articles mais sous forme de compte-rendus, de posters, de résumés de conférence etc. (littérature grise) • Il y a plusieurs types de Google Scholar (.com, .be, .fr etc.) et faire une recherche dans l'un ou dans l'autre peut donner des résultats différents Google Scholar propose une interface dépouillée avec la possibilité de mener une recherche avancée (articles, auteur, publication, date).

Mais la lecture des résultats peut s'avérer compliquée :

Noe Gross
Page 37: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Dans Google Scholar, les règles de syntaxe sont en principe similaires à celles de Google. Mais en pratique, GS est : • Indifférent à la casse • Sensible aux diacritiques (accents) • Ne prend pas en compte les masques et troncatures (il utilise un processus de lemmatisation et le masque via l'astérisque remplace un mot) • Prend en compte les opérateurs booléens classique (AND – automatique, OR, NOT « - ») • Critères de proximité : via les guillemets : l'ordre à de l'importance On peut également affiner soi-même sa recherche en utilisant la syntaxe propre à Google :

Il est également possible de faire des recherches via une interface de veille : demander d'envoyer un email dès qu'il y a des nouveautés concernant ma requête. C'est très utile quand on mène une recherche sur plusieurs mois car on se tient au courant de tout ce qui sort.

Page 38: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

7. Humanités numériques Réflexion sur les pratiques changeantes en tant que chercheur ou citoyen. Survol du domaine émergent des humanités numériques → nouvelle thématique : domaine en pleine émergence et assez porteur. Introduction Souvent on associe le développement des DH à un livre : A Companion to Digital Humanities, edited by Susan Schreibam, Ray Siemens and John Unsworth en 2004. Ce livre parle surtout de la façon dont on peut faire avancer les recherches grâce à l'informatique. Quelques définitions des DH : • « Using computational tools to do the work of the humanities » » • « DH is a way to ask, redefine, and answer questions with a more intelligent set of tools » • « The use of digital tools and methods in humanities study and dissemination » → Outils qui permettent de poser des questions plus rapidement ou plus intelligemment par rapport à un corpus de plus en plus grand et numérisé. Comment faire avancer les travaux de sciences humaines grâce à l'informatique. Mais ces définitions placent les sciences humaines dans une position assez faible par rapport aux ingénieurs. Les ingénieurs proposent des nouvelles technologies, souvent valorisées, mais le contenu culturel est vu comme secondaire. Dans les projets de recherche, le monde politique considère que les sciences humaines ne rapportent pas beaucoup à la société. Mais si on les oblige à travailler avec des informaticiens : retour économique possible. Dévalorisation des sciences humaines. Le débat sur les DH se demande souvent : qu'est-ce que l'informatique apporte aux sciences humaines ? Mais il faut aussi se demander ce qu'apportent les sciences humaines à l'informatique. Livre « Debats in the digitial humanities », 2012 : suit plutôt cette voie. Montre comment on exploite parfois les sciences humaines. Johanna Drucker : elle attire l'attention sur le fait que l'ingénieur doit travailler dans l'informatique de façon binaire, schématique du monde réel (ex. catégorisation des résultats avec des algorithmes, des paramètres quantitatifs). Alors que dans les sciences humaines, on s'intéresse aux exceptions : approche herméneutique. On ne s'arrête pas aux tendance globales. Alan Liu : tout ce qui est protocole technique → fruit d'un consensus politique et économique. On doit les regarder façon plus critique, analyse à faire sur la gouvernance du web. En science humaine : vision plus critique et différente que les ingénieurs. Apport des sciences humaines face au numérique ? • Matthew Kirschenbaum, linguiste à la base, Bibliologie (ex. Mechanisms : constitution des disque-durs → il démystifie le fait que l'information numérique est éphémère, n'a pas de base physique). • Isabelle Boydens : approche plus ou moins similaire. Utilise l'herméneutique. Emergence problématique d'une discipline Si on s'intéresse à une thématique (ex. XVIIIème), on sait qu'il y a des projets importants de

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 39: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

numérisation qui donnent accès à des sources primaires très intéressantes. On peut même parfois faire une recherche full-text dans ces sources. Mais cela reste non-strucuté, il n'y a pas de définition spécifique : un peu limité. Des projets spécialisés peuvent aussi aider (ex. Stanford Univeristy) : utilisent des informations pour les mettre en image, produisent de nouveaux outils. Mais aussi limites : • Souvent ce genre de ressources est dans le « deep web », non directement indexable. Il faut alors être au courant de l'existence du projet sinon on y a pas accès. Ces bases de données restent des îles indépendantes. En tant qu'utilisateurs on aimerait bien pouvoir faire les liens entre ces bases de données non connectées. • Tension entre les documents structurés et non-structurés. On aimerait que tout soit plus structuré. • Problématique de la qualité des méta-données. Quand il y a un grand nombre de données, on fait souvent ça en vitesse, mais il y a alors un manque de qualité. • Surcharge d'information : impossible de parcourir manuellement toutes les sources. Pistes de recherche Deux évolutions fondamentales : • Web des données : plus vers un web sémantique, plus intelligent, plus relié. Aller d'un contexte non-structuré à structuré. Dépassement des bases de données. • Notion de la lecture à distance : face au volume de données, quels sont les outils qui permetteraient de lire plus automatiquement ces sources ? La création manuelle des méta-données n'est pas envisageable dans le contexte actuel. A. Web de données Modélisation bases de données : schémas relationnels importants (entités-attributs-liens). Toute la société de l'information a pu avancer grâce à cela. Mais dans le contexte du web où on veut partager et réutiliser des données, les bases de données peuvent poser problème : barrière sémantique. Comment éviter de passer par des schémas ? Si on s'intéresse à un personnage, les résultats classiques de Google seront les sites les plus populaires. Mais Google ne sait pas du tout de quoi on parle. Depuis quelques temps, Google incorpore à droite une « info box » avec des métadonnées structurées. Ce modèle sur un modèle de triplet : sujet (personnage) – prédicats (infos sur lui, qualités) – objet (réponses aux infos, valeurs). Wikipédia se base là-dessus. >< Solution → Web de données « Web sémantique » ou « Linked data » : « AAA » (anyone can say anything about anything) Tout le monde peut dire ce qu'il veut. Ce modèle répond au problème du modèle de triplet. Toutes les informations sont des liens qui renvoient à d'autres liens. On peut sauter d'une information à une autre. On dépasse les limites d'une base de donnée locale. Mais cela a aussi des travers : comme tout le monde peut dire n'importe quoi, tout le monde peut lancer des informations fausses. La qualité peut devenir problématique. De plus, en tant qu'utilisateur, on peut se trouver perdu face à ce genre d'information.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 40: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

B. Notion de la lecture à distance • Big data : très grand volume de données → utilisation de statistiques pour les comprendre • Exemple de Google Flu Trends : arrive par exemple à détecter une ou deux semaines en avance les épidémies de gripe (alors que aucun médecin). Ils y arrivent en regardant le type de requête lancé sur google. On se base sur une agrégation de données. Google a accès à une sorte de corpus quasi infini de données. • Application en sciences humaines → Google N-Gram viewer : google a numérisé 4% de la production totale de monographie. D'après cette application, on peut par exemple mesurer les occurences de certains termes. Si une est plus présente qu'une autre : popularité plus grande dans la réalité. • Franco Moretti, « Graphs, maps, trees », 2005 : introduit l'idée de « lecture à distance », « distant reading ». En général, une analyse basée sur un micro-corpus, un corpus accepté par tout le monde par consensus, basé sur les « canons » (car impossible pour un linguiste de lire tous les ouvrages). Mais vision un peu limitée du monde. La notion du canon a été remise en question. Moretti dit que c'est plus intéressant de dépasser ces canons. En tant qu'être humain on ne peut pas lire toute la production littéraire, il faut donc passer par l'informatique pour traiter ce corpus énorme. Mais l'application reste problématique en principe. • « Do close reading » : télécharge le roman complet, lecture classique • « Do distant reading » : on va extraire automatiquement les concepts les plus récurrents dans le roman et les renvoyer vers des pages. Sorte de « résumé » proposé. Comment aller vers une lecture à distance ? Reconnaissance des entités-nommées : sur base d'un texte, un ordinateur peut extraire des concepts intéressants. Il utilise alors des URL pour donner des définitions, définir de quoi il parle : désambiguïse (ex. Washington → la ville, le politicien, le musicien?). C'est intéressant car d'une façon automatisée, on peut identiter les concepts importants. On peut alors proposer une navigation plus intéressante et structurée, créer des liens entre documents, étudier des tendances. Critiques face aux DH Stanley Fish (article dans The New York Times) : ridiculise les DH. Il utilise la méthodologie des DH au travers d'un exemple basé sur l'oeuvre de Milton. Il dit que si on regarde juste les occurences entre les « presbyters » et les « bishops », on peut dévleopper plein de théories, mais qui n'ont rien à voir avec les théories de Milton. Dans une approche classique, on va développer une hypothèse et aller vers les sources, creuser pour valider celle-ci. Par contre, les DH « balancent » juste des

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 41: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

statistiques sur un texte, voient émerger certaines patterns et donnent une conclusion par rapport à cela. VS Wilkens (prof qui utilise des statistiques). Il a pris la production littéraire aux USA à un certain moment et en a extrait des noms d'endroits cités. Il remarque qu'après la guerre civile, les USA développe une ouverture plus large internationalement. Mais trop dangereux d'attacher des conclusions à ces phénomènes statistiques. → Fish dit que Wilkens va trop vite d'une analyse statistique et formaliste à des conclusions. Outils pour faire ce genre d'analyse, extraire des entités : freeyourmetadata.org 8. Digital Humanities : quels outils pour quels corpus ? Interventions de Max De Wilde, Simon Hengchen – ReSIC Q f è f c p c m c ch , de la presse, des journaux, des m c c. I y 2 pp ch f p c p :

• L’ pp ch ' c m p c . E z p c mm xp c m , par contr m m m mp .

• D p c ' è m w m p ' xp p c m ch p f mêm . L' c m h 'elle est rapide par co c p m p c .

C 2 pp ch p m m xc m c mp m . On peut faire du close reading et du distant reading (p pp c ). L f f c . O p mêm xp c c p l'ordinateur, cette approche nouvelle n'est pas exempte d'erreurs, il y mp c f j des experts humains pour les corriger. U x mp : L M C'est un livre volumineux avec un certain nombre de personnages, ces personnages ont tous des interactions entre eux. Le close reading impli ' hè ' ch p f ' c . Avec le distant reading p p m m x c c p . On peut ainsi visualiser les interactions entre les personnages. 2 outils qui permettent d'exploiter des corpus :

• AntConc : c c c p m f m c x c. B pp ch pp « bag of words », on voit la langue comme u c m . L' c c pp c p 'il ne prend en compte aucune syntaxe. • Unitex : c ' y x c c f p c p chaque langue.

D m c s outils 1° AntConc A ch c c fch p fch

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 42: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

m fch . A ' p m c c p f f . Ap è ch M c 5 fch p x mp f c de mots, ici on peut le faire rapidement chargeant la liste de mots via le logiciel. On voit qu'il y a une distinction entre l w k (= m m ) w yp (= cc c m f ). C m ( p c) p -ch c M c c m ( fc ) m . C c p c p m m j c p f , le logiciel ne fait pas de distinction entre les majuscules et les minuscules. En cliquant sur le mot mariu p c c c cc c m c p c x . O p ch c x x c . O p m M apparaissent ces termes. L 2èm ph c c c p m p m c p . O p m mm p f c x c m c c p ph p c p j ccè x . On peut faire des clusters ou des n-grams c m m p c ch ch p c c m m . On peut par exemple voir « m p m cy cc c p c'est son nom de famille. On peut se demander quels sont les mots qui sont en rapport avec marius dans son entourage physique dans le texte, c'est ce que fait l'onglet collocate, o p ch m m . C m p : c' p f c m ’ è c p . O p ch ' p f c p x mp .

En descendant dans p m c c p c m c . A m p j c p cc c j M , il es p j c c p m J V j c c c p f ch ch m f ê (1 m ch 1 m ) ' y è p m f pp x cô jean. O p f ch ch p y x p c è p x mp : ( j ) f ' m p c j m f p p . O p m ch ch -grams sur valjean. Si on veut exp c m è p p p ch p f c c ch ch ch c m j c . I y c m c m j c m j c . C m è ' m p m f ch ch m p p . D c m è p xp p p m p p f c . 2. Unitex O p ch c m A C c c p . Ap è ch m 1 M f y x c ph

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 43: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

f m pp c p f c ch ch m les dictionnaires et essayer de faire des associations. L x p - c ym c mm (S) f p ph . E p A C c j p c k . T m , p p x mp m c c c j . I y c m m c m m p p c 'y p f , pas de dictionnaire des noms propres. Une fois la li m p y c p m è p p c ph mm FS-G ph FS p f p. O p j mêm p fèch ( ' ) et se terminant par le cercle ( ' f ). O p c p p c ph cc c . O p p x mp F ê p ê <ê > f c p c î 'il s'agit d'un verbe e ' m p ' pp c j c c . O ph 2 p c F ê c j c . O p cc c c F ê . En continuant le graph p j < > c f ' ' p è F , on veut ' mp j c f c mm c p . N m ’ cc c qui diminue. Remarque : z1 = langage courant, z2 = langage soutenu. A la p c j c f p j p c p . S' f F Valjean (Fantine + Jean Valjean), etc. Deuxième partie : x c ’ mm U ch Q c, environ 30 xml de f ch ( 30x B ). E f ch ch ch p m 'identifcation et d'un descriptif de l'archive. Par exemple en faisant une recherche sur Jacques Cartier, on peut tomber sur de nombreuses cc c c mm p c C ’h c. O f pp x m j c f 'URI. L'URI c p c ' p p p è c c : identifiant unique (qui e URL). U URL f f adresse postale.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 44: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

m f ' xp ' f m c URI, et les URL. x mp c : J 'ULB et je suis le cours de t ch ' f m . L c pè c c p », « ULB » et « technologie de l'information ». Le logiciel va nous extraire alors les concepts. nqu te du datajournalism sur irbnb : y c c p f c c c p : . A p c p f G M p localisation, c'est ce que qu'on app c c f f p p 'appartement.

MyT pT B k : ff p c : travers le monde, on peut voir les relations mondiales. Outils : • Gephi • OpenRefine • FreeYourMetadata • DataTXT • dataletemps 9. Cloud computing : web et société S j : mp c w c y . A f mp p w cc (1.0, 2.0 3.0 ...) m c c c p p ’ c . ’h c w ’ p m p -f m p f ch HTML p m p m m m h berge de plus en plus nos applications (app store) (dropbox). C c mp c c p ch m è m p ’ f m m è c m x . Il convient donc de ’ p p è c c . Le Cloud On le présente comme une solution finale aux problèmes informatiques. On va de plus en plus abandonner le disque dur de nos ordinateurs portables pour transférer nos données vers le « nuage » qui va les stocker. Mais cela a des implications dangereuses à long terme. Microsoft essaie de se positionner en tant que fournisseur du Cloud pour les entreprises >< alors que Apple a le monopole en ce qui concerne les utilisateurs individuels. D x x mp f C c mp m ’ f m :

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 45: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• Postpolitics du Washington Post : Il y a quelques années, la Maison Blanche a mis en ligne ’ H y C c ’ p B . A c p y ’ f c ’ p m m . C' p journalistes et historiens. Le Washington Post a été le premier à permettre un accès informatisé à ces ressources. Il a fallu convertir les images scannées vers du texte, permettant de faire des requêtes. Cela aurait du prendre des semaines ou des mois mais grâce au nouveau modèle de CloudComputing, on paie pendant quelques heures des serveurs numériques. Cela révolutionne ’ ccè ’ f m . • Dans certains contextes, cela a un impact négatif pour la gestion de la vie privée. En Asie, de plus en plus, les grandes surfaces vont faire analyser les vidéos tournées dans les magasins pour identifier le trajet du consommateur. L ’ p comment positionner le produit pour avoir des ventes optimales. Sur base de la forme du visage, on donne un identifiant à une personne pour savoir quels sont ses trajets dans le magasin au fil du temps. On essaie de combiner cela avec la température corporelle (pour savoir si la personne est p m xc ). L C c mp f c c ’ y c ’ ’ y très peu de temps un très grand volume de données. 1° EVOLUTION DU WEB ET SA DIRECTION FUTURE A. IMPACT DU CLOUD COMPUTING S c ch c ’ m c « venture capital » (c p p ’ p û ’ c ). Pendant 6 mois / 1 an, une campagne marketing est lancée pour montrer que le cloud computing va révolutionner notre vie. Les attentes sont alors très hautes. Mais plus tard, c mp ’ contraire cela complexifie les pratiques et cela ne règle pas les problèmes. Il faut donc des années ( 3 5 ) p ’ pp ’ ch . E 2013/2014 c effet que le Cloud computing a eu un retour négatif (du à beaucoup de problèmes juridiques). Elle révolutionne pas mal de choses mais apporte aussi des problèmes. Pendant 10/15 ans, on parlait du web comme de contenus assez statiques (pages html). Cela a été c p ’ c des bases de données en ligne. Le web n'est plus seulement une plate-forme pour la distribution de fichiers HTLM publiquement disponibles, mais héberge aussi de plus en plus nos applications et nos données. Cette tendance aura un impact considérable sur nos manières de manipuler l'information et sur les modèles économiques existants. T m ck ’ m ch . J ’ è c mm c’ c è p mp ’ ch ’ . Néanmoins, pour héberger un grand volume de données, on pouvait se servir aussi de serveurs externes. E c c ’ C . O m ’ pp ff m m a journée pour accéder à la même information. Le disque dur p c f ’ c p è p . O h D p x. L pp ’ c pour cc ’ f m h p c . « Computing as an utility » Parallèle entre la production et la distribution d'électricité et la gestion d'internet : deux

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 46: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

boulversements majeurs pour la société. Aux Etats Unis, dans la 2ème moitié du XIX, Edison va ’ c c p mp c m c y èm p . I f f produisant et vendu des pièces qu p m ’ c c . M f XIX / XX c ’ c mm c ’ m m c c ’ c c p p x c mm . A taient c p ’ (c c p p ’ f c ). 10/15 ans, il y a eu de la réticence sur le marché pour aller vers ce modèle. Petit à petit, cela coutait moins ch ’ c c ’ ê e responsable soi même. Les hôpitaux gardent des générateurs autonomes pour éviter tout problème. A part cela, les entreprises ne génèrent plus leur propre électricité. Implications pour le monde des entreprises mais également pour l'ensemble de la société. L mêm C mm p ’ mp ’ y c c sur le marché, il y a un quasi monopole. Il faut des investissements tellement importants pour p ’ è p c . C’ p c x C c mp . J ’ y 10 p son propre parc informatique et à faire gérer son propre serveur par ses informaticiens. De plus en p p 2000 2005 ( ’ m nt massif dans les cables optiques aux Etats-Unis), cela a été boulversé. Economiquement, cela revient moins cher que de travailler sur son propre serveur. On retombe dans le même danger : il y a un très petit nombre de fournisseurs qui offrent ce genre de service → monopole. Dans le livre de Nicholas Carr (The big switch, 2009) c ’ mp c C C mp . L commodification est le processus qui va essayer de standardiser un produit ou un service. Une commodité est « un produit standardisé, essentiel et courant, aux qualités parfaitement définies et connues des acheteurs ». On va standardiser la production pour faire en sorte ’ p peut être vendu par différentes personnes à des tarifs plus ou moins similaires. Après une première période d'expérimentation et d'implémentation, l'électricité et les services web sont devenus des

commodités.

Arrivée des ordinateurs A partir des années 1960, 1970, on a commencé à utiliser des applications stockées sur des grandes machines. Comme les machines étaient très chères, il y avait un département dédié à la gestion de l'informatique et des employés spécifiques pour cette machine. Les secteurs des compagnies aériennes et bancaires ont instigué le développement de logiciels de gestion de transaction. L'investissement dans l'IT était de l'ordre de 10% du budget d'équipement alors qu'aujourd'hui il représente plus de la moitié de ces dépenses.

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 47: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Evolution de l'informatisation Epoque des mainframes (ordinateur central) : investissements très importants qui devaient être justifiés par une utilisation optimale. Il fallait introduire une demande. Les employés n'avaient pas d'accès direct aux mainframes mais ils étaient gérés dans les endroits spécifiques avec du personnel dédié à la tâche : ils travaillent à 90% de leur capacité. E p c c mp f c ’ f m . E 1975 Bill Gates décide de développer des logiciels pour le nouveau PC, qui était considéré comme un produit pour des hobbyistes. L’ p bricoler » chez eux, on ne ’ m p c p mp c s les entreprises. Mais Gates avait compris que le PC pouvait remplacer les mainframes dans les entreprises. Dans les années 1980 : introduction du micro-ordinateur. Ensuite, on les a insérés un peu partout. Le PC a été une évolution importante. Dans les années 1980-1990's, il fallait faire appel à différentes applications pour gérer les factures, pour payer les employés, etc. Celles-ci étaient des logiciels écrits spécifiquement pour une base de donnée. Les centres dans lesquels se situaient les mainframes se sont alors transformés en « data centers » gérés localement et ont introduit la notion du client-server computing (m c mm c p p mm c : ' f c ê ; ' f ê c y p ). I y c p m ch . I y p m ch ’ cô ’ p m f m . L m andardisation et la compétition entre des fournisseurs de hardware obligent les entreprises à gérer des serveurs différents pour chaque application, qui doivent pouvoir gérer des maximums théoriques. La plupart du temps, ces machines sont utilisées en dessous de leur capacité. Gaspillage de ressources informatiques Seulement un quart de la force des processeurs et 25% à 50% de la capacité de stockage d'un data center sont utilisés. Non seulement les coûts d'achat et de maintenance, mais aussi des dépenses énormes en matière d'électricité (pourraient dépasser les coûts du hardware dans le futur). Pourquoi ? • Loi de Moore : on voit que tous les 2 ans, la capacité de stockage et la puissance d'un processeur doublent. • La capacité à pouvoir migrer des données a pendant longtemps posé problème car on passait par la ligne téléphonique ou réseau satellite. La bande passante utilisée pour la télécommunication n'était augmentée que très rarement, ce qui a obligé jusqu'à récemment les entreprises à avoir un accès local à leurs apllications et données. • MAIS Période Dotcom → à la fin des années 1990 : succès commercial du web et investissement massif pour les fibres optiques. C ’ ’ p 2002-2004 ’ p y ’ p è . L’ p pp C c mp le jour. L'ère du « cloudcomputing » En 2005, Google a construit un data center à Oregon : investissement de 600 millions. Création

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 48: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

d'une infrastructure qui peut opérer un dixième du coût d'un data center typiquement géré c m ' p . G c M . C ’ p p ’ ch B . C c ’ . I y cc m ’ ch . O , ce qui coûte le plus cher est de refroidir toute cette chaleur. Le climat belge est donc optimal. Il y a plusieurs milliers de serveurs dans un container. L’ C c mp p c NSA. O c e faire en sorte que des données critiques ne soient pas hébergées sur des plateformes aux mains des américains. Risque de monopole : Amazone, Microsoft, Apple. Cloud computing : « s c c mp ff p p p , qui sont c m p p ’ p y m m x c p c mm (p z f c ’ c c ) ». Principes : • Principe du «thin client» (client léger) : un thin client est un ordinateu f p f m c è p c c p m . L p p m thin clients m c m . On retrouve par exemple des ordinateurs sans p ’ ck f cloud. L c û f c p ’ p ’ ch p c mm c (m c mm mêm p y ck cloud). • Principe de migration du CAPEX (dépenses d'investissement) vers OPEX (dépenses d'exploitation) pour les entreprises utilisant le cloud • Virtualisation : permet de faire tourner une application sur plusieurs ordinateurs sans devoir installer celle-ci sur toutes les machines. • E c • Automatisation : plus besoin d'une grande équipe pour gérer les data centers • F c p pp c mm : les entreprises ayant recours au cloud ne paient que pour ce dont elles ont besoin Impacts pour les entreprises • Dans le passé, les machines ne tournaient pas au maximum de leur capacité. Par la suite, p y p c h m . L’ C c mp ’ê m è y m : ’ p p m p c ’ c mm (facturation par rapport à la consommation). OPEX : f ’ c c c. I c p ’ c m p f pp c etc. Si nos frais opérationnels augmentent, c ’ p c (p f c m mauvais). • Moins de barriètres pour lancer une entreprise, suite à la baisse des CAPEX (le montant qu'on doit emprunter à une banque pour louer un bâtiment ou autre → t ’ m a besoin pour lancer une entreprise : les investissements initiaux) car moins d'investissements dans l'équipement informatique au début. • Agilité qui permet aux entreprises de changer plus rapidement leur stratégie • Niveau de sécurité élevé Impacts sur la notion de l'emploi • D p 2 3 p m ’ p c p pp ’ mp c ’ m w x ’ mp . E f c c ff m m ’ cc f cela va aboutir à une grande perte d’emplois. B c p ’ mp p p ê automatisé. Les entreprises pourront engager un ch p f mêm ’ m c p m .

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 49: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• Utopie que le citoye pp ’autonomie p ’ c ’ p âc w . O c x x c x consommateur peut plus que jamais être influencé. Le processus de community manager renvoie à faire du marketing classique. Il est donc important de ne pas idéaliser l'économie de « don » et le crowd-sourcing qui règnent sur le web : « everyone is free to play but only a few reap the rewards ». • U c ’Amazon particulièrement intéressant est problématique : Mechanical Turk. On appelle cela « artificial intelligence » car la plateforme permet de proposer des micro-tâches/des petits boulots. Exemple : p m ’ c ff récupérer des noms et numéros de téléphone. C’ è mp m p c mp f p . C’ ch ch p ’ c . S ’ p aux Etats-U p p ch ’ . I ’y c p c . D’ c 10 c p c f E p . Uber » (taxis) part du même principe : grâce au web, on peut mettre en commun les offres et demandes. Impacts sur les contenus • Il y a aussi un impact au niveau du contenu lui-même : « unbundling » = dégroupement des contenus. De plus en plus, on découpe des contenus dans des sous-ensembles. Car quand on peut personnaliser un contenu c’ p f c ’y c p c .

• Exemple : on achète des morceaux individuels et non p ’ m c mp . • Exemple d'un journal en ligne : n'existe plus réellement en tant qu'entité en soi, mais est remplacé par l'article auquel l'utilisateur accède directement quiest accompagné d'une publicité par rapport au contenu de l'article

• Vu l'explosion de l'information en ligne les utilisateurs apprécident les services de recommandation et de recherche personnalisée. MAIS cet accès personnalisé aux contenus en ligne risque de polariser les communautés virtuelles (cyber balkanization). Impacts pour les utilisateurs • Exemple de la création d'un site web (ex. Oméka). Aucune étape ne vous demande de stocker localement des données ou de faire appel à un logiciel localement installé.

• Exemple de la création en ligne d'un blog utilisant un CMS comme Wordpress, Blogger. Le CMS permet de façon automatisée de publier certains contenus en ligne. • O p m Om k ’ c c c âc à Google Adsense (possible de se faire de l'argent). • Ou d'ajouter des vidéos via Youtube, des images via Flickr, de la musique par Last.fm, gérér des flux RSS avec Feedburner..

On peut faire bcp de choses gratuitement en ligne. BUT : « There's no such thing as a free lunch ». Contrepartie : c ’ m p m c ’ nos données. Le but est de créer des profils de consommateurs. • Dans les années 1998-2001 : modèle d'affaires basé sur la vente de publicité – Dotcom bubble. • De 2008 à aujourd'hui : modèle d'affaires bas » sur l'analyse, la prévision et la manipulation du comportement du consommateur – Web 2.0 bubble. Businessinsider.com : on voit plusieurs domaines de marketing. • E p c p c p c ’ voient (CTR). Gossips : ce sont les liens sur lesquels les gens cliquent le plus souvent. En ce qui

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 50: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

concerne les services informatiques ou médicaux, il y a moins de clics. • A droite, on voit le CPC, le prix associé à chaque clic. Il y a une relation inversée entre ’ c ’h m c c ch c û c c . L j x de la publicité, actuellement surtout de la publicité en ligne. Ce site permet de voir quelles sont les pub qui attirent et donc de donner aux journalistes des sujets en lien avec ces thématiques.

B. RÔLE DES COOKIES (question d'exam !!!) Les canadiens parlent de « témoins de connexion » entre un serveur et un client. C'est une technique qui permet de : • faciliter la navigation en ligne • calculer les visiteurs uniques d'un site • constituer des profils de consommation Nombreux avantages et désavantages qui rendent le débat autour des cookies complexe. Ce sont des fichiers textuels, contenant un identifiant unique, envoyés par le serveur au navigateur, qui le renvoie lors de chaque nouvelle consultation (//carte de fidalité). Ce ne sont pas . O c k p f f c w ’ x j ’h . I c c p m ’ contrat entre un service auquel on s’adresse et un client. S c k ’ x p f c m p ch f ’ ch p . C p m m p c . S notre ordinateur, on peut consulter le répertoire de nos cookies. En les mettant dans un éditeur texte, c m ’h m . C ’ f : y m ’ f c c k p ’ pp c .

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 51: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Quand on lance une requête sur le site du Soir, notre navigateur lance sur demande et le serveur du Soir va renvoyer vers nous le contenu. • A ce moment-là, le secteur va émettre un cookie (contenant un identifiant) (= first party cookie) et aura accès à un répertoire spécifique de notre navigateur. Les cookies « premières partie » sont des cookies qui sont mis en place par le domaine affiché dans la barre d'adresse du navigateur. Si on fait une requête quelques jours plus tard, le gestionnaire du site du Soir va savoir ’ est revenu sur le site car le serveur va se « souvenir » nous avoir envoyé un premier cookie. • U f ’ ch p ’ p p ’ m ( è p c ) p S ’ p h S m ’ p publicitaire. Du coup, ce serveur va également émettre un cookie (= third party cookie). Les cookies « tierce partie » sont mis en place par l'un des objets de la page qui proviennent d'un domaine différent. Si on va sur le Soir, puis La Libre et que cette dernière héberge une bannière de la même entreprise publicitaire, celle-c ’ S . L des utilisateurs sur plusieurs sites. // Carte de fidélité qui permet de savoir ce qu'on achète à la fois ch z D h z BG C y c. N m j ’ p p . L p èm c’ F c k p p . Dè ’ ù ’ cô I like » de Facebook, ce dernier peut nous émettre un cookie (third party cookie) et donc nous « pister ». Zombie cookies : un cookie qui est recréé automatiquement quand un utilisateur l'a supprimé. Pas mal de personnes vident leur répertoire de cookies chaque semaine ou mois. Un back-up est prévu en dehors du répertoire qui est prévu par le navigateur pour le stockage des cookies. Les zombie cookies repeuplent le répertoire. On est alors dans la quasi impossibilité de supprimer les cookies. Une directive européenne demande plus de clareté (refus du opt-in par défaut) mais son implémentation n'est pas évidente. 2° LECTURES : DEUX APPROCHES OPPOSEES Retour sur la création des méta-données et la potentialité d'engager le public dans la description des contenus : • Clay Shirky, « Ontolody is overrated » • Jason Lanier, « Digital maoism » Ontology is overrated U m c m p m p c f c mm c c p c mp c mm c c c p c ’ c c p : p . mp m p ' x c mm ».

• Ex mp : h , plans de classification • èm : ’ c

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 52: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Thè Sh ky : “the ontological ideal is a mistake”

• Danger des classifications classiques : privilégier certains aspects, en fonction de notre culture par exemple (ex. religion)

Domaines d'application : • C p m c c c p p ê c p xp xp p xp => pp m ’ ’ faisable • C p m x h è , sans experts au niveau de la description et de ’ xp => mp ' c c

The only group that can categorize everything is everybody : social tagging • L m ch : ’ m m x ’ p m ’ xp x p • L p mè p pp x mp p m c -c y m • L p p c c p m c ’ cc m tags • L’ ccè c p ’ f m c p h c • Utilisation des URLs comme identifiants uniques • “Th m c h h y m”

Digital maoism L c c y c “h m ” w c . L hive mind (conscience collective) se rapporte aux croyances c mp m p c c f c c mm f c p m m p pp c c c . S c h c p c comportant comme un individu global, plus fort. Il p x x mp p c c : w k m -m contenu

• “wh p m x h w k w c m y c c h p c f ” • “ h w m f m - ”

Les wikis : • Un wiki est w p m f p f p m ' c ' c c m m ' c . L p c W k p . • “A c f f h w k w h wh r problems exist in the wiki will be incrementally corrected as the process unfolds.This is analogous to the claims of Hyper-Libertarians who put infinite faith in a free market, or the Hyper-Lefties who are somehow able to sit through consensus decision-m k p c ” • C : p c p c c W k p p c mp x p c p L . Il a une vision simpliste et réductrice. The new magnitude of meta-ness : • L' c p c de lecture et de stockage d'articles issus de plusieurs flux d'information. • L c f ’ p f m ’

Page 53: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

c c D R . O une uniformisation de ’ f m c mm c’ c c w k . Blogs => Consensus web filters (Digg, Reddit) => Aggregator of consensus web filters (Popurls) • “W w wh c c y hm f m wh h c c y algorithms derived from what collectives chose from what a population of mostly amateur writers w ym y” 10. The commodification of social media users “C mm f c ” m p ck m h → prosumer commmodity All things on social media are for free. BUT we forget that we are sold at the same time. We are clicking on advertisements, producing value, etc. Facebook is controlling our behaviour. Facebook is pushing us to do certain things. Facebook wins money thanks to advertisements, games (ex. Farmville), etc.

“They say it's friendship. We say it's unwaged work. With every like, chat, tag or poke our subjectivity turns tham a profit”.

Capitalistic logic Marx theory : is the capitalism a good way of living? People have money to invest and have a capital. Capital is invested in two things : machinery and variable capital. The product is sold in order to make profit. The money generated has to be larger that the money invested. Profit is reinvested in order to become richer. Capitalist always wants more money. You have to find new w y y m y. I ’ w y xp . By xp c p y h p h p p to buy new things, valorise products. Against social and political barriers. Facebook creates rules. Everything happens on Facebook (events, school group, etc.). We can apply the Marx theory on social media. Facebook. The first process : users create a product (gossips, funny pictures, etc.). Facebook tells us when to ch ck F c k w h h f c . Th ’ form of control. By consuming Facebook, we are consuming and producing at the same time = w c h h “p mp” ( h c m “prosumption”). L p mm m issu du mot anglais prosumer c c c mm p f ' pp ch p p p c c ’ f m . Par exemple, avec G ch f ’ (= c mm ) m ch ch y c ê c p c p c p c f . C c m ’œ j c m ch G et devient donc un prosumer, un producteur-consommateur. → Internet prosumer commodity : user-generated content, transaction data, cirtual advertising

space and time.. Audience commodity/eyeballs (Smythe): our name is used to promote brands → sponsored story (example: Julie Masure likes Carrefour). We can consume an advertisement by two ways : • look it • click on it but very few people click on advertisements

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 54: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

There are two models : w CPM = cost per mille (rénumération à l'affichage) w CPC = cost per click (rénumération au clic)

People generate value !! Who creates the audience commodity? • Resources : personel info, usage data and user generated content • Infrastructure : API (interface de programmation : ensemble de méthodes qui sert de façade par laquelle un logiciel offre des services à d'autres logiciels) and advertising interface • Free labour : targeting done by advertisers Who creates the targetable data? • Infrastructure : API to define Facebook objects and to store lonks between users and objects • Free labour : users click on like buttons, follow pages, befriend.. ; publishers, app developers and page owners define objects Facebook provides an advertising interface. Advertisers choose people who correspond to the product. Advertisers create audience sectors/niches. Facebook is making a lot of money thanks to the “free labour”. Online publishers who put like buttons on their site work for free (with cookies, Facebook is able to know on which sites we go). If we put on like buttons, it helps targeting us. Norman k f c . Th k j ch f p x w c ’ y “p h” on it. If we click this button, we share content on Facebook. Every time we see a like button, Facebook put a cookie on our computer. Like buttons are tracking our behaviours. This is the power of technology. Immaterial labour L’ mm 2.0 f m m m û c mm c p p p c ’ m û . Immaterial labour : you are using a social connexion to sell a product. On Facebook people tell other people what to buy (// what to listen on Spotify). Now, the impression is that brands tell who you are. Example : people who have a mac are against other computer brands. // with the Ice bucket challenge : to do that tells who I am (= a cool person). Ethical surplus (Arvidsson) : • Sphere of circulation

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 55: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

• It utilizes a common ability to interact and socialize, and a common symbolic framework, a set of shared knowledges and competences, to produce a social relation • Brands become contexts to producre these social relations through the consumption of products • Consumers are encouraged to use brands in their production of an ethical surplus • It's ensured that the ethical surplus thus procuded evolves in particular directions • The autonomous productivity of consumers is used as a source of innovation Latour : Sociology is looking at the wrong thing. Technology is telling us what to do. We have to look the technology as an actor. The problem with delegating actions to technology is that it makes us forget what we can do by ourselves. The biggest problem is th w ’ m ch c . There is no discussion possible with technology : we do what they tell us to do. Humans are shaped by technologies. An obligatory passage point is a place you have to go to, you can negotiate with technology. This is a situation where actors are forced to follow the proposed program inscribed in objects because they are driven by a personal interest. For example, if you want to sign in on Facebook, you have to give your information (Facebook : en utilisant nos services après le 1er janvier 2015, vous acceptez la mise à jour de nos conditions, de nos politiques d'utilisation de données et des cookies). You are obligatory to accept the new legal terms of Facebook if you want to stay on Facebook. It is an obligatory passage point. It is a “choice without choice”. E y h c c . “N m wh y f h k y h f y y y h ”. w Before immatiral labour : Fordism → “Y c h y c y k s it's ck” H y F h M T. A c F m l’entreprise est reine et le client a peu de choix. A ’ p p f x c âch . w D ’ re post-fordiste ’ pp ’immaterial labour. C ’ c’ ’âm ’ c ’ . C’ sa personnalité, sa sub ectivité qui doit tre organisée et commandée. Q mm . C f m c ô ’ f m c p c c è ’ m j c , touche les ouvriers de m è ff f c h ch ’ m p m c mm p c (Lazzarato 1996). w Immaterial labour 2.0 : age of prosumer CCL : all the value created on Facebook is created y “ ” wh w k f f : hyp xp . Part of this value is closely related to consumption, productive consomption. And how is this controlled? • By surveillance of every digital move • A shared cultre, something we have in common that makes us b y “c ” h The filter bubble – Eli Pariser The filter bubble : concept developed by the militant Eli Pariser in one of his book. This bubble is the way of personalising the results, it is the algorithmic selection of contents. Google do ’ give the same results to everybody. The more personalise it is, the more relevant it is. Cette bulle filtrante ne propose donc que le contenu qui nous intéresse. Cela comporte de grands risques : les gens ne sont plus confrontés à l'altérité, à la contradiction mais seulement aux contenus qu'ils aiment. Cracking the Facebook Code – Weber 2010

Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Noe Gross
Page 56: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Apparently, people stay longer on Facebook if they see happy news. It influences what is shown in the news feed : info = biased. They look at the interest, the post, the creator (if nobody likes your

contents, your posts will be less seen), the type, the recency (the more recent is the more relevant). So the most recent doesn't tell the whole story. Facebook has created that personalisation system because it was afraid of becoming boring if we m ch f m f m f p p . If y w m “p p ” ( h y p are more shown), you can pay Facebook or other techniques : links, comments... Biopouvoir – Foucault Biopouvoir et p : m c p M ch F c . L p yp p ' x c : c p c p p . S F c mp c p p p m ch m . La biopolitique est une forme d'exercice du pouvoir qui porte, non plus sur les territoires mais sur la vie des gens, sur des p p ( p ’ pp c p ). K f c c y F c ff ’ m : we have no choice but we have still the feeling of the choice. C'est dissimulé, caché. → “L p c m ù ym p m c

soigneusement par l’administrationon des corps et la gestion calculatrice de la vie” →“U p f m pp c h ch p ô ’ m f

c m ” “ w f f m h p p c h c p c y c h f f c f h h

inter h m f h h ’ p c .” (Lazzarato)

Biopower on Facebook : every feature on Facebook has been tested. Testing is used for website design. 60/70% of people click more when the pictures are large. The biopouvoir is very used by Facebook to control our behaviours. The messages and the notifications are put on the right because ’ p h p p w ch m h h h h f . I y. Th p cy y m p p c wh p p ’ k. Moreover, people have trouble to find the correct settings to change the privacy terms. It is a strategy again. The goal is to give enough pleasure and m m k p p f h p cy m . I ’ ff c m m c this “ ch c ” y F c k cc p h p cy m . // Cookies are like digital stamps put on our browser.

Noe Gross
Noe Gross
Noe Gross
Page 57: Technologie de l'information - Cercle d'Histoire · – Isabelle Boydens ou Bibliologie – Matthew Kirschenbaum). Article New York Times : Humanities Departments are largely spared

Amusing ourselves to death : Public Discourse in the Age of Show Business de Neil Postman (1985) Il compare deux livres parlant ’ pp x m è ff . • Le premier, 1984 (1949) G O w p ’ pp (donc une expression du pouvoir classique) • A x èm , Brave New World (1931) de Aldous Huxley p ’ oppression auto-infligée par le peuple via son addiction aux divertissements (// donc une expression du biopouvoir de Foucault). m H x y c p m x m c c ’O w .

CCL : Biopower structures out behaviour in a imperceptible way : • power through the algorithm • power through objects • power by testing user behaviour