Hoy me han pedido que saque un listado de los enlaces rotos dentro de cierta web. ¡Ah! Nada más fácil en Linux:
$ wget --spider --no-parent -r -o log.txt http://tuweb.com |
Sweet wget…
–spider : recorrer la web que le digas, pero SIN descargar nada. Sólo recorrerla.
– r : recursivo, como si fuera el robotito de Google 🙂
– o fichero : la salida de ejecutar el comando que salga por pantalla
–no-parent : si le pasamos como parámetro un nombre de directorio, no queremos que suba hacia los directorios padre.
La lista de enlaces rotos estará en log.txt (parte final)