Wayback Machine
26 juin 2024 Anna Aghamalyan |
Nous remercions r2_3d (OpenFacto), /Yoan Blanc (Oscar Zulu), /Stéphanie Ladel (OSINT-FR) et TheoTFD (Projet FOX) pour leur travail de relecture, de correction et d'amélioration avant la mise en ligne de ce tutoriel. |
Ce tutoriel propose de s'intéresser au fonctionnement de l'outil « Wayback machine » disponible sur la page https://web.archive.org/ :
Lancée en 2001, la /Wayback_Machine offre une interface publique à la base de données gérée par /Internet_Archive :
Internet Archive (ou IA) est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (copies prises à différents moments) de pages web, de logiciels, de films, de livres et d’enregistrements audio.
La Wayback Machine est un excellent outil gratuit pour retrouver des contenus perdus ou d’anciennes versions de ces derniers. En juin 2024 l’outil stocke plus de 866 milliards de pages web.
1. Exemple d'utilisation
On veut retrouver la page d'accueil du site www.amazon.fr le 7 avril 2024 en début d'après-midi.
Étape 1
On se rend sur le site de WayBack Machine à l'adresse https://web.archive.org/ et on tape l'URL que l'on recherche :
Étape 2
On regarde les versions datant du 7 avril 2024. On trouve celle de 13:43:41 :
Remarque : la taille des cercles sur la page du calendrier indique le nombre de fois que le robot de Wayback Machine a visité le site web (récupération d'images, de fichiers de style CSS, etc.) selon ce code couleur :
- Bleu pour une capture réussie de la page Web.
- Vert pour une redirection.
- Orange pour une erreur côté client (erreur 4xx).
- Rouge pour une erreur de serveur (erreur 5xx).
Étape 3
La page web s’affiche telle qu’elle était à cette date :
Cas d'usage : vous voulez consulter une page sur un site, malheureusement la page est indisponible. Vous vous rendez alors sur la Wayback Machine et si la page a été préalablement archivée, vous pouvez la consulter. |
2. Extension de navigateur
Quand on utilise régulièrement cet outil, il est intéressant d'installer une extension dans son navigateur. Cette extension existe pour Firefox et pour Chrome. Il n'est pas obligatoire d'avoir un compte pour utiliser l'extension. Nous verrons plus tard dans ce tutoriel les fonctionnalités avancées proposées quand on dispose d'un compte.
Après l'installation et une fois l'icône épinglée, on clique dessus pour accéder aux différentes fonctionnalités. La première fois, il faut accepter la politique de confidentialité :
Exemple d'utilisation
Nous allons utiliser le site de la communauté OSINT-FR pour l'exemple. On se rend sur le site, et on clique sur l'extension :
Nous n'allons pas tout voir, les points les plus intéressants sont :
- Bouton « Save Page Now » qui permet de demander l'indexation immédiate de la page. Quand son compte est connecté (c'est le cas ici), on peut cocher ou non les options « Outlinks » (archive également les pages web pointées par des liens) et « Screenshot » (stocke une capture d'écran de la page web).
- Bouton « Oldest » qui permet de consulter la page indexée la plus ancienne.
- Bouton avec une icône de calendrier pour accéder à l'historique.
- Bouton « Newest » qui permet d'afficher la date de la dernière indexation du site (ici le 15 mai 2024).
Sauriez-vous dire de quand date la première page indexée ? Cliquez pour obtenir la réponse.On clique sur le bouton « Oldest » et on obtient la première page archivée, du 20 janvier 2021 : |
3. Comparaison de versions archivées
Il peut être intéressant de comparer deux versions d'une même page web pour observer les changements apportés à un site, comme des modifications de contenu ou de mise en page. C'est possible grâce à la fonction « Changes » de WayBack Machine. Voyons le résultat pour la /page d'accueil française de Wikipédia.
Étape 1
Saisir l'URL cherchée sur le site Wayback Machine et cliquer sur « Changes » :
Étape 2
On peut alors choisir deux dates pour comparer. On va prendre le 11 avril 2024 (snapshot de 19:00:11) et un an avant, le 11 avril 2023 :
Remarque : Wayback Machine utilise une palette de onze couleurs (gris, jaune, vert, bleu) pour indiquer le degré de changement relatif d'une archive à l'autre. Les changements mineurs sont représentés par du gris, tandis que les changements importants sont indiqués par du bleu. |
On clique alors sur le bouton « Compare » :
Étape 3
On voit apparaître les deux visuels du site l’un à côté de l’autre. Le jaune met en lumière le contenu qui a été supprimé, tandis que le bleu indique l'ajout de contenu :
Quelles modifications ont été apportées à « Wikipédia l'encyclopédie libre » tout en haut ? Cliquez pour obtenir la réponseIl ne s'agit pas de texte, mais de deux images au format SVG qui ont été modifiées. Elles sont visuellement semblables, mais les fichiers sont numériquement différents. |
4. Archivage d'une page web
Demander l'archivage d'une page web peut se faire via une extension du navigateur comme vu précédemment, ou directement depuis le site, ce que nous allons voir maintenant. Nous allons prendre pour exemple la page d'accueil du site Marmiton.
Étape 1
Depuis le site WayBack Machine, saisir l'URL à archiver et cliquer sur « Save page » :
Étape 2
Le site nous demande confirmation, cliquer sur « Save page » :
Étape 3
Le moteur d'indexation travaille et après un certain temps (variable), la page est archivée. On la retrouve sur le site :
Remarque : Seule la page choisie a été archivée, il manque notamment les liens externes. Pour bénéficier de fonctionnalités supplémentaires, il faut créer un compte. |
5. Création d'un compte et fonctionnalités avancées
Étape 1
Sur le site de WayBack Machine, cliquer sur « Sign up » en haut à droite :
Étape 2
Remplir les trois champs proposés puis cliquer sur le bouton « Sign up » :
Étape 3
Un message indiquant que vous devriez recevoir un e-mail de vérification s'affiche :
Vous devez consulter cet e-mail et cliquer sur le lien qui y est proposé. Voilà, vous êtes enregistré.
Voyons maintenant ce que cela change pour demander l'archivage d'une page web.
Étape 4 : archivage avec un compte
On va demander l'archivage d'une recette de gâteau au chocolat, comme indiqué précédemment. Toutefois, au moment de l'indexation, on bénéficie de fonctionnalités supplémentaires :
Voici les différentes options proposées :
- Save Outlinks : permet d'archiver également les pages web vers lesquelles les liens sortants de la page soumise pointent.
- Save Screenshot : permet d’avoir une capture d'écran de la page web soumise au moment de l'archivage.
- Save also in My Web Archive : permet aux utilisateurs connectés avec un compte de sauvegarder la page archivée dans leur propre archive web personnelle sur la Wayback Machine. Cela permet de conserver une copie de la page dans un espace personnel pour une consultation ultérieure.
- Email Me the Results : permet aux utilisateurs de recevoir par e-mail un rapport sur les résultats de l'archivage, y compris des informations sur les pages archivées, les liens sortants enregistrés, les erreurs éventuelles rencontrées et les captures d'écran générées.
- Email Me a WACZ File with the Results : permet aux utilisateurs de recevoir par e-mail un fichier WACZ (Web Archive Collection Zipped qui est une archive ZIP) contenant les résultats de l'archivage.
Cocher les fonctionnalités souhaitées puis cliquer sur le bouton « Save Page ».
Étape 5 : archive personnelle
Si l'on coche la fonctionnalité « Save also in My Web Archive », on peut vérifier que la page archivée a aussi été copiée dans l'archive web personnelle. En haut à droite de l’écran, cliquer sur le pseudo et choisir « My web archives » :
On retrouve bien la page archivée avec diverses indications comme le nombre de personnes qui l’ont consultée, l’ont mise en favori et l’ont commentée :
Étape 6 : rapport par e-mail
Si on coche la fonctionnalité « Email Me the Results », on reçoit par e-mail un rapport sur les résultats de l'archivage :
6. Indexations multiples
Si l'on doit demander l'archivage d'un très grand nombre de pages, il est possible d'utiliser Google Sheets en lien avec le site. Il est nécessaire d'avoir un compte sur le site ainsi qu'un compte Google. La limite est de 40000 pages par demande.
Étape 1
On commence par aller sur cette page puis on clique pour lier son compte Google :
Étape 2
On peut alors créer le tableau avec les URLs que l'on souhaite archiver. Dans le menu Google, on ouvre donc la page « Sheets » :
Puis on crée une feuille de calcul vierge :
Étape 3
Dans la première colonne, on liste toutes les URLs que l'on souhaite archiver :
Étape 4
On va maintenant donner accès à ce fichier à Wayback Machine. Pour cela, on ouvre le menu lié au bouton « Partager » et on clique sur « Copier le lien » qui est alors dans le presse-papiers :
On retourne sur la page de WayBack Machine qui devrait afficher ceci :
On peut alors cliquer sur « Archive URLs » et on colle le lien obtenu précédemment :
On choisit alors « Save results in a new Sheet » et on clique sur le bouton « Archive ».
Remarque : cette étape peut durer plusieurs heures selon le nombre d'URLs. Tout le traitement est effectué à distance donc vous pouvez quitter la page et attendre l'e-mail de fin. |
Étape 5
Une fois les URLs archivées, un e-mail de rapport est envoyé avec un fichier Google Sheet en pièce jointe :
Conclusion
Nous avons vu dans ce tutoriel les principales fonctionnalités de Wayback machine. Comme toujours, les informations que l'on peut retrouver sur les pages indexées doivent être prises avec du recul, par exemple pour les images ou les fichiers CSS qui ne sont pas forcément stockés au même instant que la page HTML. Sur chaque page, le bouton « About this capture » permet d'en savoir plus :
Enfin, souhaitons que « Internet Archive », qui est une organisation à but non lucratif, puisse continuer à financer ce projet grâce aux dons et aux subventions.