En noviembre del año pasado dejé de utilizar el hospedaje gratuito de
Blogger para este sitio y
empecé a utilizar un hospedaje web con un dominio propio. Entre las ventajas que otorga publicar bajo en mi propio servidor están el poder tener respaldo de mis artículos, llevar métricas más exactas de visitas y carga, poder subir mis archivos y agregar otras funcionalidades y aplicaciones a mi
blog.
Hace unos días necesitaba la dirección de uno de mis
posts para enviárselo a un amigo por correo, como no recordaba la dirección exacta utilicé el buscador de
Google que coloqué en la barra de la izquierda del sitio (
chéquenlo, quedo bastante ameno, sobre todo la parte de 'Búsqueda en otros blogs') para encontrar el
URL utilizando palabras que recordaba haber puesto en el post.
Se podrán imaginar mi sorpresa cuando
Google no regresó ningún resultado. Cero.
Nada. Zip.
Lo segundo que se me ocurrió -
lo primero se lo podrán imaginar- fue:
¿si yo mismo soy incapaz de encontrar algo que yo escribí y que tengo la certeza que existe, cómo podrá alguien más encontrarlo (¡gasp!)?La respuesta fue sencilla: desde hace tiempo conozco el servicio de
Google Sitemaps (ahora parte de
Google Webmasters Central) que permite notificar al buscador de
Google cuando un sitio cambia sin tener que esperar a que el indexador automático llegue al sitio -
cosa que pasa más o menos una vez cada tres semanas- además de que entrega estadísticas de búsqueda muy completas. El chiste de
Sitemaps es que hay que crear un archivo que le diga al servicio que archivos hay que reindexar y cuándo fue la última vez que fueron modificados.
Suena fácil,
pero ese archivo hay que hacerlo y aunque
Google provee una herramienta bastante buena para crear nuestro archivo para Sitemaps esta tiene dos desventajas: está escrita en Python (
que muchos hospedajes no soportan) y requiere acceso a la consola (
algo que prácticamente ningún hosting provee).
Google menciona
otras herramientas (incluso en PHP) pero son pocas, escasas, de alcance limitado y algunas cuestan dinero (o sencillamente no me convencieron).
Es entonces que pongo manos a la obra y decido escribir mi propia herramienta que he llamado
phpGoogleSiteMapsCrawler.(ya sé, ya sé, ¿pero que querían, un nombre Web 2.0
como "dKrawler" o algo así?)
phpGoogleSiteMapsCrawler es una herramienta muy sencilla escrita en PHP (probada en servidores con
Windows y
Linux para
PHP 4.2.x hacia arriba) que hace el trabajo sucio por nosotros: la colocamos en el servidor, la configuramos con los datos de nuestro sitio y en unos segundos crea un archivo
XML compatible con
Google Sitemaps listo para ser indexado. Tiene también la capacidad de exclusiones por nombre de archivo o de directorio completo.
- Esta es la liga para bajar phpGoogleSiteMapsCrawler
OJO: phpGoogleSiteMapsCrawler solo agrega -por ahora- elementos estáticos guardados en el servidor, no URLs de sitios generados dinámicamente como pasa con la mayoría de los CMS. Blogger genera HTML estático por lo que es ideal para usar con este script.
Esta herramienta la he estado probando y funciona bastante bien, así que la he liberado bajo licencia
GNU de
código abierto con la esperanza de que le sea de utilidad a otros
webmasters,
bloggers y
SEOs que deseen entrarle a la indexación dinámica del buscador de
Google y para que puedan echarle un ojo al código y si lo desean, ayudarme a mejorarlo.
Otros usos tangenciales que pueden dársele a esta herramientita incluyen el rastreo y depuración de sitios con muchos archivos o incluso la creación de un buscador local propio. Es la ventaja del
OpenSource, ¿eh?
He puesto
una lista de cosas que se me ocurren que puedo agregar en Ta-da y he abierto
una discusión sobre esta herramienta en los foros de Webmasters México para colocar pendientes, ideas y asuntos relacionados. Conforme vaya liberando nuevas versiones iré notificando aquí, por supuesto, en
The Book of Fate.
Cualquier duda, idea, comentario, queja, recriminación, sugerencia o colaboración espontánea al respecto no duden en hacérmela llegar por correo a
mauricio.angulo@gmail.com o como comentario en este
blog o en el foro.