Hace unos días necesitaba la dirección de uno de mis posts para enviárselo a un amigo por correo, como no recordaba la dirección exacta utilicé el buscador de Google que coloqué en la barra de la izquierda del sitio (chéquenlo, quedo bastante ameno, sobre todo la parte de 'Búsqueda en otros blogs') para encontrar el URL utilizando palabras que recordaba haber puesto en el post.
Se podrán imaginar mi sorpresa cuando Google no regresó ningún resultado. Cero. Nada. Zip.
Lo segundo que se me ocurrió -lo primero se lo podrán imaginar- fue: ¿si yo mismo soy incapaz de encontrar algo que yo escribí y que tengo la certeza que existe, cómo podrá alguien más encontrarlo (¡gasp!)?
La respuesta fue sencilla: desde hace tiempo conozco el servicio de Google Sitemaps (ahora parte de Google Webmasters Central) que permite notificar al buscador de Google cuando un sitio cambia sin tener que esperar a que el indexador automático llegue al sitio -cosa que pasa más o menos una vez cada tres semanas- además de que entrega estadísticas de búsqueda muy completas. El chiste de Sitemaps es que hay que crear un archivo que le diga al servicio que archivos hay que reindexar y cuándo fue la última vez que fueron modificados.
Suena fácil, pero ese archivo hay que hacerlo y aunque Google provee una herramienta bastante buena para crear nuestro archivo para Sitemaps esta tiene dos desventajas: está escrita en Python (que muchos hospedajes no soportan) y requiere acceso a la consola (algo que prácticamente ningún hosting provee). Google menciona otras herramientas (incluso en PHP) pero son pocas, escasas, de alcance limitado y algunas cuestan dinero (o sencillamente no me convencieron).
Es entonces que pongo manos a la obra y decido escribir mi propia herramienta que he llamado phpGoogleSiteMapsCrawler.
(ya sé, ya sé, ¿pero que querían, un nombre Web 2.0
como "dKrawler" o algo así?)
como "dKrawler" o algo así?)
phpGoogleSiteMapsCrawler es una herramienta muy sencilla escrita en PHP (probada en servidores con Windows y Linux para PHP 4.2.x hacia arriba) que hace el trabajo sucio por nosotros: la colocamos en el servidor, la configuramos con los datos de nuestro sitio y en unos segundos crea un archivo XML compatible con Google Sitemaps listo para ser indexado. Tiene también la capacidad de exclusiones por nombre de archivo o de directorio completo.
- Esta es la liga para bajar phpGoogleSiteMapsCrawler
OJO: phpGoogleSiteMapsCrawler solo agrega -por ahora- elementos estáticos guardados en el servidor, no URLs de sitios generados dinámicamente como pasa con la mayoría de los CMS. Blogger genera HTML estático por lo que es ideal para usar con este script.
Otros usos tangenciales que pueden dársele a esta herramientita incluyen el rastreo y depuración de sitios con muchos archivos o incluso la creación de un buscador local propio. Es la ventaja del OpenSource, ¿eh?
He puesto una lista de cosas que se me ocurren que puedo agregar en Ta-da y he abierto una discusión sobre esta herramienta en los foros de Webmasters México para colocar pendientes, ideas y asuntos relacionados. Conforme vaya liberando nuevas versiones iré notificando aquí, por supuesto, en The Book of Fate.
Cualquier duda, idea, comentario, queja, recriminación, sugerencia o colaboración espontánea al respecto no duden en hacérmela llegar por correo a mauricio.angulo@gmail.com o como comentario en este blog o en el foro.
2 comentarios:
Muchas gracias por tu herramienta, ya la estoy usando en mi blog :)
Saludos
Muy buen post, muy interesante. Estaré probando tu script próximamente porque necesito generar el SiteMap de mi sitio.
Te comento que soy de Argentina y Project Leader de Shenzi (www.shenzi.com). Es un website de avisos clasificados y está escrito en PHP. Te invito a visitarlo.
Saludos.
Nicolás A. Tourné
Publicar un comentario