Linux: Aspirer un site web

Linux: aspirer un site web
Quand vous en avez marre d’avoir à retourner chercher des informations sur un site web distant très lent ou que vous êtes offline, vous aimerez bien aspirer tout le site entier (pas tout internet hein!).
Souvent à cause d’un fichier robots.txt très peu permissif, qui interdit certains User-Agent, comme votre WGET préféré, vous ne pouvez pas télécharger les pages voulues.

Voici la solution:

wget -k -w 1 -e robots=off –user-agent= »" -m http://votre_URL

Le « –user-agent= »«  » permet de supprimer les limitations côté serveur .Il peut être remplacer par un User-Agent de navigateur comme Internet Explorer ou Firefox.

Le « -m » permet d’indiquer que nous souhaitons faire un miroir du site.

Le « -k » permet de modifier les liens pour que les urls pointent en local.