May 10

El error 500 en robots.txt es una catástrofe

 A principios de Abril me di cuenta a través de google analytics que las visitas a la Chuwiki estaban cayendo en picado. El hosting estaba bien, así que el motivo es el habitual en estos casos, google ha dejado de mostrar tus páginas en los resultados de búsqueda. Visita a google web master tools para ver el posible error y veo que google ha dejado de rastrear mi página y que ha encontrado errores en el servidor.

rastreo google

Revisando, revisando, encuentro que los accesos al fichero robots.txt que no existe están dando error 500 en vez de error 404. Buscando en google, veo que eso puede ser catastrófico, ya que un error 404 indica que el fichero no existe y el rastreador de google sigue rastreando, pero un error 500 indica un error en el servidor y el rastreados abandona el sitio sin rastrear nada.

El arreglo rápido es sencillo, crear un robots.txt con todos los permisos habilitados, así ya no hay ni error 500 ni error 404. Mano de santo. Poco después google vuelve a rastrear (se ve en el gráfico anterior) y las visitas vuelven a subir (siguiente gráfico)

visitas png

 

Ahora sólo quedaba saber el motivo de este cambio de comportamiento frente a un robots.txt no existente (pasar de error 404 a error 500). Mirando los ficheros en mi servidor veo que todos han sido tocados el 29 Marzo a las 12 de la noche (que casualidad, la fecha en la que aparentemente google deja de rastrear).

Consulto a mi proveedor de hosting (dinahosting) y efectivamente, me confirman que en esa fecha han hecho un cambio de servidor que justifica ese "toqueteo" de ficheros.

Investigando un poco más, veo que el .htaccess del dominio principal chuidiang.org (tiene un drupal instalado), hace que las páginas no encontradas se redirijan a index.php. Supongo que eso es normal puesto que ese fichero está tal cual lo pone drupal, sin haber tocado yo nada. En el subdominio chuwiki.chuidiang.org no hay ningún htaccess…. pero parece que justamente desde ese 30 de Marzo en que dinahosting tocó el servidor, el htaccess del dominio afecta también al subdominio. Eso provoca el error 500 (un fallo en index.php) en vez de el 404.

Consulto a dinahosting qué han cambiado para que ahora el htaccess del dominio afecte al subdominio, pero ellos viendo que es cosa de "mis" htaccess se han desentendido y sigo esperando respuesta. He añadido un pequeño htaccess a la chuwiki para que al menos los errores 404 sean 404.

ACTUALIZACIÓN. Al día siguiente de escribir este post, los de Dinahosting no solo han contestado, sino que también me han indicado dónde estaba el error del .htaccess. Faltaba cerrar una comilla y es un error registrado en drupal http://drupal.org/node/290356

Entradas relacionadas:

One Response to “El error 500 en robots.txt es una catástrofe”

  1. Lo mejor de mi RSS del 7 al 13 de mayo de 2012 | Linux Hispano Says:

    […] El error 500 en robots.txt es una catástrofe – Diario de programación […]

Leave a Reply