![Page 1: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/1.jpg)
Internet : la mémoire courte ?
Capture de sites Web en ligne
Conférence B.N.F, Avril 2004Xavier Roche(HTTrack)
http://www.httrack.com
![Page 2: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/2.jpg)
Internet : la mémoire courte ? 2
Pourquoi copier des sites web?• Archivage pour conservation et/ou historisation• Archivage pour raisons légales • Miroirs de sites pour des raisons de redondance • Copies pour une mise à disposition non connectée • Copies par des particuliers (copie privée) • Agents intelligents, stress de réseaux, validation de liens
cassés ou des liens externes, plan du site…
![Page 3: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/3.jpg)
Internet : la mémoire courte ? 3
Le « Web », qu’est-ce que c’est ?Internet
WWW
HTTP
https:
HTTPS
news:
FTP
mailto:
ftp:News
Ressources locales (fichiers)
http:
file:
Fichiers
![Page 4: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/4.jpg)
Internet : la mémoire courte ? 4
Un « serveur Web », qu’est-ce que c’est?
Fichiers, archives
Base de données
Traitements
Éléments extérieurs(capteurs, etc.)
Serveur Web
Contenus Requêtes
et contenus
Client
![Page 5: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/5.jpg)
Internet : la mémoire courte ? 5
Le serveur web: un « livreur » de contenus
Fichiers, archives
Base de données
Traitements
Éléments extérieurs(capteurs, etc.)
Serveur Web
Contenus Requêtes
et contenus
Client « Page Web»
table_001
template.php
![Page 6: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/6.jpg)
Internet : la mémoire courte ? 6
Les documents hypertexte
![Page 7: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/7.jpg)
Internet : la mémoire courte ? 7
Les liens hypertexte
![Page 8: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/8.jpg)
Internet : la mémoire courte ? 8
Copie locale d’un « site Web» ?
![Page 9: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/9.jpg)
Internet : la mémoire courte ? 9
Ressources locales (fichiers)
Copie locale d’un « site Web»
template.php
template2.php
…
table_001
table_002
…
Serveur Web
disque local
![Page 10: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/10.jpg)
Internet : la mémoire courte ? 10
Le « nommage » local des fichiers en ligne copiés
![Page 11: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/11.jpg)
Internet : la mémoire courte ? 11
Nommage des fichiers copiés- Exemple: fichier html
Windows
Linux/Unix
![Page 12: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/12.jpg)
Internet : la mémoire courte ? 12
Nommage : restrictions- Nommage des fichiers comportant des « caractères spéciaux »
![Page 13: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/13.jpg)
Internet : la mémoire courte ? 13
Nommage : duplications- Duplication de noms
+
![Page 14: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/14.jpg)
Internet : la mémoire courte ? 14
Nommage : solutions- Résoudre les collisions
+
+
![Page 15: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/15.jpg)
Internet : la mémoire courte ? 15
Modification des liens hypertexte
![Page 16: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/16.jpg)
Internet : la mémoire courte ? 16
Les problèmes apparaissent!
![Page 17: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/17.jpg)
Internet : la mémoire courte ? 17
Les problèmes apparaissent!- Les liens:• <a href= 'page 2.html'>• <a href= "page%202.html">• <a href= page%202.html>• <a href= "page 2.html">• <a href= "http:page 2.html">• <a href= "//www.example.com/page 2.html">• <a href= "page 2.html">• <a href <a href= "page2.html">>
![Page 18: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/18.jpg)
Internet : la mémoire courte ? 18
Les problèmes apparaissent!- Les formulaires:
![Page 19: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/19.jpg)
Internet : la mémoire courte ? 19
Les problèmes apparaissent!- Les formulaires (suite) :
![Page 20: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/20.jpg)
Internet : la mémoire courte ? 20
Les problèmes apparaissent!- Javascript :
![Page 21: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/21.jpg)
Internet : la mémoire courte ? 21
Les problèmes apparaissent!- Java :
![Page 22: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/22.jpg)
Internet : la mémoire courte ? 22
Les problèmes apparaissent!- Flash :
![Page 23: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/23.jpg)
Internet : la mémoire courte ? 23
Les problèmes apparaissent!- Fichiers hypertextes vs binaires (Java/Flash) :
un fichier html
un fichier « flash »
![Page 24: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/24.jpg)
Internet : la mémoire courte ? 24
Les problèmes apparaissent!- « Horodatage » intégré aux liens hypertextehttp://www.example.com/page2.html?t=19993112235959999
- Liens multiples vers un seul documenthttp://www.example.com/forum/article.php?id=1234http://www.example.com/forum/article.php?id=1233&nexthttp://www.example.com/forum/article.php?id=5678&previoushttp://www.example.com/forum/article.php?id=6548&previous10http://www.example.com/forum/article.php?id=879&next10...
- Etc etc etc
![Page 25: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/25.jpg)
Internet : la mémoire courte ? 25
Aperçu de quelques autres problèmes
• Taille limite des fichiers• Gestion des erreurs, des liens cassés• Sites protégés par mot de passe• Sites utilisant des « cookies » / des sessions• Fichiers locaux « Intranet » (file://)• Sites sécurisés (HTTPS)• Sites ftp• Sites accessibles via Ipv6 uniquement (recherche,
universités)
![Page 26: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/26.jpg)
Internet : la mémoire courte ? 26
Mise à jour ?
![Page 27: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/27.jpg)
Internet : la mémoire courte ? 27
Mise à jour ?Document capturé le 15/01/2004 à 17h32
Une version plus récente est-elle disponible aujourd’hui ?
• Économie de bande passante
• Économie de temps
• Économie d’espace de stockage
![Page 28: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/28.jpg)
Internet : la mémoire courte ? 28
Mise à jour « incrémentale » (1)
document mis à jour depuis le 15/01/2004 à 17h32?
interrogation du système de fichiers
oui, nouveau document disponible
![Page 29: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/29.jpg)
Internet : la mémoire courte ? 29
Mise à jour « incrémentale » (2)
le document « 098f6bcd4621d373cade4e832627b4f6 » est il périmé ?
interrogation de la base de donnée
oui, je vous transmet le document « ad0234829205b9033196ba818f7a872b»
![Page 30: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/30.jpg)
Internet : la mémoire courte ? 30
Les précautions à prendre lors de la capture d’un site
![Page 31: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/31.jpg)
Internet : la mémoire courte ? 31
Les précautions à prendre : surcharge du site
• Limiter la bande passante et le nombre de connexions simultanées!
![Page 32: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/32.jpg)
Internet : la mémoire courte ? 32
Les précautions à prendre : aspects légaux ?
• Copie privée / publique ?• Protection du site ? (loi n°95-597 du 1er
juillet 1992 , art l 353-3 du CPI)• Statut d’un aspirateur de sites Web ?
Navigateur? Robot? Proxy-cache?
![Page 33: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites](https://reader036.vdocuments.pub/reader036/viewer/2022081404/5f0409427e708231d40c0068/html5/thumbnails/33.jpg)
Internet : la mémoire courte ? 33
Conclusion
• …