ì archivage du web - université de montréal...dépôt légal du web : domaine ina ì le domaine...
TRANSCRIPT
ì Archivage du web Bruno Bachimont, Sorbonne Université
Cadre:ledépôtlégal
ì Principe:ì Patrimoinedecequiaétédiffuséàunpublic;ì Mémoiredelanation,cequiappartientàtousetàpersonneen
particulier;ì Mémoirepourlefuturetnonpourl'exploitationutilitairepourle
présent.
ì Uneinventionfrançaise:ì ÉditdeMontpellierde1537(François1er);ì Présentdansdenombreuxpays,maispasdanstous.
ì Unemiseenœuvreenpermanenteévolution:ì Chaquenouveausupport,mode,procédédepublicationposela
questiond'undépôtlégalpourcetteformed'expressionetdemiseàdispositiondupublic.
Bruno Bachimont, Archivistique audiovisuelle et numérique
2
ÉtapedudépôtlégalenFrance
ì Unehistoireriche:ì 1537CréationdudépôtlégalenFranceImprimés(Livres)ì 1648Estampesdontcartesetplansì 1793Partitionsmusicalesì 1881Périodiques(Loisurlapresse)ì 1925Photographieset«touteproductiond'artsgraphiques»ì 1941Affichesì 1963Enregistrementssonoresdetoutenatureì 1975Imagefixeetvidéo
ì «quelqu'ensoitlesupportoulemoyentechniquedeproduction»
ì 1992Editionélectroniquesursupportì dont«logiciels,basesdedonnéesetsystèmesexperts»
ì 1992 Dépôtlégalaudiovisuel,confiéàl'INA.ì 2005Web
ì Extensioncontinueavecdeuxprincipesì Continuitédescollectionsì Extensionduchampparlapriseencomptedetouslescontenusvéhiculéslanouvelletechnique
Bruno Bachimont, Archivistique audiovisuelle et numérique
3
Lalettrepatentede1537
ì Ondéfend«àtousimprimeursetlibrairesdemettreniexposerenventeennotreRoyaumesoitenpublicouensecrettouteslesoeuvresnouvellementimprimées,sansqu'unexemplairenesoitremisentrelesmainsdel'abbéMellindeSaint-Gelais,ayantlachargeetlagardedenotrelibrairieétantennotrechâteaudeBlois».
ì Ilestordonné«defaireretirer,mettreetassemblerennotrelibrairietouteslesoeuvresdignesd'êtrevuesquiontétéetserontfaites,compilées,amplifiées,corrigéesetamendéesdenotretempspouravoirrecoursauxditslivres,si,defortune,ilsétaientci-aprèsperdusdelamémoiredeshommesouaucunementimmuésouvariésdeleurvraieetpremièrepublication».
Bruno Bachimont, Archivistique audiovisuelle et numérique
4
PourquoiarchiverleWeb?
ì Passeulementunmediumpourtransmettreetdiffuserdescontenus,maisaussiunnouveaumoyendecréerdescontenusoriginaux.
ì Deuxenjeux:ì Contenusclassiques:
ì LeWebpermetderécupérerdescontenusclassiqusmêmessileurformeéditorialevientd'autrestraditions,imprimésoudiffusionsaudiovisuelles;
ì ContenuspropresauWeb(web-borncontent):ì LeWebpermetdetrouverdescontenusquine
peuventêtretrouvésailleurs.
Bruno Bachimont, Archivistique audiovisuelle et numérique
5
UnemémoireduWeb
ì Unevéritablecultureestencoursd'émergenceavecleWeb;
ì Chaqueculturerenvoieàdesenjeuxspécifiquesdemémoireetrelèved'unedémarchepatrimonialespécifique.
ì L'archivageduWebestdésormaisunenjeusociétaletpatrimonial.
Bruno Bachimont, Archivistique audiovisuelle et numérique
6
Contextefrançais
ì Laloisurlapropriétéintellectuelleménageunenouvelleexception:ledépôtlégalduWeb;
ì LaBNFetl'INAserontenchargedeceDL;
ì LapartieINA:ì Continueretenrichirlescollectionsaudiovisuelles
actuelles:(e.g.lesstationslocalesourégionales)ì ArchiverleWebdelaradio/télévisionainsiqueles
industriesculturellesassociées.
Bruno Bachimont, Archivistique audiovisuelle et numérique
7
ì LecontextelégalDéfiniruncadre:l’exempledelaFrance
Bruno Bachimont, Archivistique audiovisuelle et numérique
8
Motivations
ì Unenouvellerédactiondudécretdu31décembre1993pour:ì Actualiserlamiseenœuvredudépôtlégal
ì delatélévision(extensionauxchaînesducâble,dusatellite,delaTNT)
ì delaradio(extensionauxradiosprivéesgénéralistesetauxréseauxnationauxthématiques)
ì MettreenœuvreleDLduwebì Clarifierlesdomainesdecompétencedel'Inaetde
laBNF
Bruno Bachimont, Archivistique audiovisuelle et numérique
9
Laloide2006
ì LetitreIVdelaloiDADVSIdu1eraoût2006ì Article39:
ì «[...]Sontégalementsoumisaudépôtlégallessignes,signaux,écrits,images,sonsoumessagesdetoutenaturefaisantl'objetd'unecommunicationaupublicparvoieélectronique[...]»
ì Article45:ì «[...]l'institutestseulresponsabledelacollecte,autitredu
dépôtlégal,desdocumentssonoresetaudiovisuelsradiodiffusésoutélédiffusés;ilparticipeaveclaBibliothèquenationaledeFranceàlacollecte,autitredudépôtlégal,dessignes,signaux,écrits,images,sonsoumessagesdetoutenaturefaisantl'objetd'unecommunicationpubliqueenligne[...]»
ì Cetexteprécisequ'undécretenConseild'EtatfixeralesconditionsdesélectionetdeconsultationaprèsavisdelaCNIL(Art41–2)
Bruno Bachimont, Archivistique audiovisuelle et numérique
10
Dépôtlégalduweb:domaineINA
ì LedomaineIna:ì undomaineestiméàenviron35000sites
ì 5grandescatégories:1. Lessitesderadioetdetélévisionissusd'unmédiaAVpréexistant:
ì de1500sitesà2000sites(ex:lessitesFranceTV,deTF1,deBFM…)2. Lessitesliésauxprogrammesdiffuséssurunechaîne(de2000à3000sites):
ì Sitesd'émissionsoudeséries(ex:Plusbellelavie,Ushuaïa-terre,Alarecherchedelanouvellestar…)
ì Sitesdepersonnalitésdesmédias,artistesouanimateurs(ex:Arthuronline).ì Sitesévénementielsetblogsliésàl'actualité(ex:sitefestivaldeCannesetenviron
2000blogsliésauxmédias)3. LeswebradiosetwebTV,environ5000sites(ex:ClapTVconsacréaucinémaetàla
musique,Mizik,laTVdesCaraïbes,Arttotalsurl'artvidéoetinfographique…)4. lessitesenrelationdirecteouindirecteavecl'activitéradioettélévision:sites
institutionnels(ex:CSA,sitesdessociétésd'auteurs…),desociétés(ex:VivendipourCanal+)oudeprestataires.Ilssontestimésàenviron150sitesauxquelss'ajouteunecentainedesitesannuaires.
5. lessitesdepartagevidéo,lesUGC(DailyMotionetYouTubeparexemple)etlesblogsdiffusantdesextraitsvidéo(environs20000blogs)
Bruno Bachimont, Archivistique audiovisuelle et numérique
11
ì Mettreenœuvreunprojetopérationnel
Bruno Bachimont, Archivistique audiovisuelle et numérique
12
Desinitiativesnombreuses
ì Dépôtlégal:ì Danemarkì Franceì Suède,ì Australie,etc.
ì Initiativesinternationales:ì InternetArchiveì Nedlibì NordicWebArchiveì Etc.
ì Initiativesnationales:ì UKWAC:UKwebarchive
consortium
Bruno Bachimont, Archivistique audiovisuelle et numérique
13
Plusieursapproches
ì Périmètredel'archive
ì TousleWeb
ì Unepartiedéterminée,selondifférentscritères:ì Linguistique
ì Lesuédois,ledanois,lefrançais…ì Territorial
ì Sites.fr,ì Thématique:
ì Sitesmédicauxì Événementiel:
ì Jeuxolympiques,élections(présidentielles)…
ì Stratégiedecollecte
ì Exhaustiveì Touslessitesdupérimètre
ì Sélectiveì Stratégiedefiltrage:e.g.
algorithme«pageranking»parexemple;
ì Échantillonage:ì Dessitesreprésentatifsdu
périmètre
ì Procéduredecollecte
ì Captationautomatique
ì Dépôtmanuel.
Bruno Bachimont, Archivistique audiovisuelle et numérique
14
Denombreusesdifficultés
ì Masseimportantededonnées
ì Complexitééditoriale:ì Interactivité;ì Connectivité.
ì Perplexitédocumentaire:ì Qu'est-cequ'unsite?ì Quedoit-onindexer?
ì Site,page,unitésgraphiques,blocstextuels?ì Pasdecritèresreconnusetconsensuelsqu'ilssoienttechniquesou
sémiotiques.ì Commentlesindexer?
ì Quelformat,quelstandard?ì Prendreencomptelesversionsetletemps.
Bruno Bachimont, Archivistique audiovisuelle et numérique
15
ì L'approcheINA
Bruno Bachimont, Archivistique audiovisuelle et numérique
16
1. Principe
1. Définir,catégoriseretfaireévoluerunelistedesitespertinents
2. Archivercessitesàdesintervallesdetempsadaptés
3. Proposerdesenrichissementspourl'analysedecettearchive
4. Mettreenplaceuneconsultationdecettearchive
Bruno Bachimont, Archivistique audiovisuelle et numérique
17
1. Principe
1. Définir,catégoriseretfaireévoluerunelistedesitespertinents
2. Archivercessitesàdesintervallesdetempsadaptés
3. Proposerdesenrichissementspourl'analysedecettearchive
4. Mettreenplaceuneconsultationdecettearchive
Bruno Bachimont, Archivistique audiovisuelle et numérique
18
1.Définition
Liste de sites blabla.com fdsdgfg.fr
dfsqffqqdsf.fr blabla.com
dfsqffqqdsf.fr blabla.com
Bruno Bachimont, Archivistique audiovisuelle et numérique
19
ProspectionitérativedudomaineOrdonnanceur
Itératif
Filtres de définition
du domaine
Ordres de collectes
robot 1
robot 2
robot n
…
Liens sortants
Site Web
Site Web
Site Web
Corpus du domaine
Carte du domaine
Collectes
Liste des sites du domaine
Cellule de veille
Bruno Bachimont, Archivistique audiovisuelle et numérique
20
Prospection
Archivage
à 2241 sites
Bruno Bachimont, Archivistique audiovisuelle et numérique
21
Principe
1. Définir,catégoriseretfaireévoluerunelistedesitespertinents
2. Archivercessitesàdesintervallesdetempsadaptés
3. Mettreenplaceuneconsultationdecettearchive
4. Proposerdesenrichissementspourl'analysedecettearchive
Bruno Bachimont, Archivistique audiovisuelle et numérique
22
Ordonnanceur Temporel
Plan de collecte :
Liste des sites du domaine
+ Fréquences de mises à
jour
Analyse des mises
à jours
Ordres de collectes
robot 1
robot 2
robot n
…
Structure/contenu des sites
Site Web
Site Web
Site Web
Collectes
Archivage périodique du domaine
Indexation
Bruno Bachimont, Archivistique audiovisuelle et numérique
23
2.Archivage
• multiples granularités
• collectes différentielles
• stocké en DAFF
Campagne des présidentielles 2007
• 6 mois de collecte à rythme croissant
• 158 millions d'objets archivés
• Environ 1 To de stockage DAFF
• 28 000 vidéos, 517 Go Bruno Bachimont, Archivistique audiovisuelle et numérique
24
Evolutiondelacollecte
0
1000000
2000000
3000000
4000000
5000000
6000000
7000000
8000000
23/01/2007
30/01/2007
06/02/2007
13/02/2007
20/02/2007
27/02/2007
06/03/2007
13/03/2007
20/03/2007
27/03/2007
03/04/2007
10/04/2007
17/04/2007
24/04/2007
01/05/2007
08/05/2007
15/05/2007
22/05/2007
Dimanche 22 avril
Dimanche 6 mai
Bruno Bachimont, Archivistique audiovisuelle et numérique
25
ì LeStreaming
Bruno Bachimont, Archivistique audiovisuelle et numérique
26
Le Streaming Radio et télévision sur
le Web
Bruno Bachimont, Archivistique audiovisuelle et numérique
27
Qu'est-ce que le streaming ?
Dans le monde de la production… Flux audio/video, accessible "immédiatement" Le client ne peut pas copier le flux
Deux types de streaming
Extraits streamés Streaming live à flux "infinis"
è Deux approches différentes
Bruno Bachimont, Archivistique audiovisuelle et numérique
28
Extraits streamés
Durée finie Identique à chaque consultation Unicast à 100%
è Peut être assimilé à du téléchargement Protocole spécifique (RTSP, MMS, ICY, …) Débit ≈ temps réel
è Prise en charge possible par le robot
Bruno Bachimont, Archivistique audiovisuelle et numérique
29
Streaming live
Potentiellement infini Différent à chaque consultation Identique pour tous les utilisateurs è Peut être assimilé à un flux radio/TV
Moins fiable (interruptions réseaux) Moins homogène (multiples formats) Plus volatile (changement d'adresse, …)
è Traitement spécifique dans la chaîne Web
Bruno Bachimont, Archivistique audiovisuelle et numérique
30
WEB
Cellule de veille
Base de données
Serveur de consultation
structure contenu
Indexation
Ordonnanceur de captation
Indexation contenus
Banque de contenus
robot
robot
robot
WEB Radio Loi + Décret d'application
Station de Lecture AudioVisuelle
Gravure CD
Captation 24/24, 365j/an
Base de données Banque de Cédéroms
Indexation
31
WEB
Cellule de veille
Base de données
Serveur de consultation
structure contenu
Indexation
Ordonnanceur de captation
Indexation contenus
Banque de contenus
robot
robot
robot
Gravure CD
Station de Lecture AudioVisuelle
Base de données Banque de Cédéroms
Indexation
Robot de captation de Streaming
META DATA
StreamArchive
32
StreamArchive: captation radio
Bruno Bachimont, Archivistique audiovisuelle et numérique
33
StreamPlayer – Interface de conultation
Bruno Bachimont, Archivistique audiovisuelle et numérique
34
Principe
1. Définir,catégoriseretfaireévoluerunelistedesitespertinents
2. Archivercessitesàdesintervallesdetempsadaptés
3. Proposerdesenrichissementspourl'analysedecettearchive
4. Mettreenplaceuneconsultationdecettearchive
Bruno Bachimont, Archivistique audiovisuelle et numérique
35
ì Outilsdevisualisation
Bruno Bachimont, Archivistique audiovisuelle et numérique
36
ì TopologiedudomainedessitesmédiasVisualisationdegraphes:lessitessontreprésentéspardespointsreliéspardeshyperliens.
Bruno Bachimont, Archivistique audiovisuelle et numérique
37
RéparationdesTLDdansledomaine
Bruno Bachimont, Archivistique audiovisuelle et numérique
38
Topologiedudomainedessitesmédias
Couleur rouge: sites du cœur de domaine
Bruno Bachimont, Archivistique audiovisuelle et numérique
39
Topologiedudomainedessitesmédias
Couleur rouge: sites du cœur de domaine
Zoom
Bruno Bachimont, Archivistique audiovisuelle et numérique
40
Topologiedudomainedessitesmédias
Bruno Bachimont, Archivistique audiovisuelle et numérique
41
Topologiedudomainedessitesmédias
Zoom
Bruno Bachimont, Archivistique audiovisuelle et numérique
42
Topologiedudomainedessitesmédias
Bruno Bachimont, Archivistique audiovisuelle et numérique
43
ì ConnectivitédessitesVoisinagedirectetpositionnementdessitesdansledomaine
Bruno Bachimont, Archivistique audiovisuelle et numérique
44
Connectivitédessites:eurotv.com
Bruno Bachimont, Archivistique audiovisuelle et numérique
45
Connectivitédessites:assemblee-nat.fr
Bruno Bachimont, Archivistique audiovisuelle et numérique
46
Connectivitédessites:ina.fr
Bruno Bachimont, Archivistique audiovisuelle et numérique
47
Connectivitédessites:bpi.fr
Bruno Bachimont, Archivistique audiovisuelle et numérique
48
Connectivitédessites:francetv.fr
Bruno Bachimont, Archivistique audiovisuelle et numérique
49
Connectivitédessites:tv5.fr
Bruno Bachimont, Archivistique audiovisuelle et numérique
50
Principe
1. Définir,catégoriseretfaireévoluerunelistedesitespertinents
2. Archivercessitesàdesintervallesdetempsadaptés
3. Proposerdesenrichissementspourl'analysedecettearchive
4. Mettreenplaceuneconsultationdecettearchive
Bruno Bachimont, Archivistique audiovisuelle et numérique
51
Proxy
Base de données
Serveur de consultation
Banque de contenus
Consultation
www.tf1.fr le 4 mars 2005
WEB, 4 mars 2005
TF1 …
52
Consultation
Navigateur Client
Internet Explorer,
Netscape,
Opéra,
…
requête
réponse
requête + date
infos + référence contenu
Contenu original
référence contenu
http://www.tf1.fr/
TF1
…
Couche d'émulation
GIF à PNG
HTML à XHTML
ASF à MPEG4
...
Serveur de
consultation
P R O X Y
Base de données
Banque de
contenus
Bruno Bachimont, Archivistique audiovisuelle et numérique
53
Proxy
Base de données
Serveur de consultation
Banque de contenus
Consultation
www.tf1.fr le 4 mars 2005
structure
TF1 …
54
3.Consultation
• A l'Inatheque
• Navigateur d'archive
Bruno Bachimont, Archivistique audiovisuelle et numérique
55
Bruno Bachimont, Archivistique audiovisuelle et numérique
56