Sigamos con el Sandbox y el MysteryRank; aunque la reciente actualización de Google ha modificado sensiblemente la situación de las webs que estaban en él, y ha introducido elementos nuevos.

Poco después del update Florida, un representante de Google (creo que, para variar, no fue el profeta de Google en la tierra, GoogleGuy) dijo, justificando los drásticos cambios que se habían producido, que habían empezado a valorar nuevos aspectos o, como él lo expresó, a detectar más “señales de calidad” en las webs.

Estas señales de calidad serían las que yo traduzco en mi ecuación de estar por casa como MysteryRank. Ahora bien, ¿qué medían dichas señales?

Las primeras especulaciones se centraron en los factores on the page y en el tan llevado y traído theming. Poco a poco, fueron siendo abandonadas.

Lo lógico es que Google quisiera reproducir el éxito del PageRank valorando lo que es más difícil de controlar: los enlaces.

El PageRank ya no servía porque era fácil conseguirlo comprando unos cuantos enlaces en páginas de alto PR, o spammeando guestbooks y blogs. Por tanto, este nuevo factor debía valorar los enlaces de manera diferente.

Me inclino a creer, como muchos otros, que lo que el MysteryRank valora es recibir enlaces desde muchas fuentes distintas, con características distintas: desde distintas IPs a que no se forme un anillo de sitios demasiado relacionados y entrelazados. Es decir, si el PageRank ve todos los enlaces como votos, el MysteryRank es el interventor que examina hasta la saciedad cada papeleta hasta darla por buena, y los votos que superan su escrutinio son considerados votos fuera de toda duda.

Si un sitio cumple dichos puntos, es considerado una fuente en la que Google puede ‘confiar’, y tiene un elevado MysteryRank.

En la siguiente sesión de sandbox, más.

Parece ser que Google ha continuado la reciente tradición de introducir algunos cambios en los resultados del buscador cada mes, y entre otras cosas, algunas webs han sido severamente jibarizadas, tal como viene sucediendo últimamente (aunque esta vez, dependiendo de cuál sea el índice que se estabilice, los cambios pueden haber sido más amplios).

Unas cuantas especulaciones con poco fundamento al respecto del fenómeno de las increíbles webs menguantes:

Diría que afecta principalmente a webs con gran número de páginas, y que presentan algún riesgo de que gran parte de ellas sean consideradas como duplicadas, ya sea por nutrirse de contenido presente en otros sitios, o por tener demasiadas páginas demasiado parecidas entre ellas (repetición de elementos navegacionales y poco contenido).

Estas webs no resucitan al hacer las consultas añadiendo a la URL &filter=0, con lo cual la situación no se resuelve de inmediato introduciendo elementos diferenciadores en las páginas afectadas, sino que parece tratarse de un sistema de penalización que ejecutan una vez al mes.

Tampoco vuelven a aparecer haciendo las consultas con algunos de los mecanismos que desactivan el Sandbox. Es decir, se trata de otra cosa.

Hasta ahora, estaba abstraído de la polémica nofollow porque soy bastante ajeno al movimiento blogger, principal consumidor de esta etiqueta que se han sacado de la manga los buscadores (sí, ya lo sé, esto es un blog; me gusta el formato, pero la idiosincrasia de la ‘blogosfera’ -qué palabra tan fea- me deja bastante indiferente). Sin embargo, empiezan a llegar ejemplos que demuestran que quizá Google se ha disparado en su propio pie.

Y es que la Wikipedia ha implementado el nofollow en sus enlaces externos. La Wikipedia, como toda web importante (o sea, con mucho PageRank) que ofrece una manera de incluir enlaces, debe estar atenta a no ser manipulada en este sentido.

Se me ocurren unas cuantas webs que podrían seguir el ejemplo de la Wikipedia. Dejando de lado cualquier web basada en wiki, por ejemplo podría implementarlo el Open Directory. Después de todo, tienen serios problemas a causa de los webmasters que cueste lo que cueste quieren incluir su web para tener un enlace de calidad a ojos de Google, ¿no? O, al igual que el blog de Google implementó una redirección a los enlaces externos para no pasar su altísimo PR a las webs que cita, otras webs importantes (diarios, universidades, webs públicas) podrían decidir, como consecuencia de lo mucho que se está hablando del nofollow, implementarlo para no ‘alterar’ con su poderoso voto los resultados de los buscadores.

Pero si sucede esto, será un desastre para Google. Google basa su eficacia en reconocer los enlaces que hay en la web. En la web hay enlaces ’sinceros’, en los que se enlaza porque realmente creemos que la web que hay al otro lado del enlace vale la pena, y enlaces ‘insinceros’, que ponemos por dinero, por amistad, por nepotismo… En la web hay enlaces cuidadosamente escogidos, y enlaces puestos al buen tuntún. Los enlaces en las entradas de la Wikipedia son sinceros y bien escogidos. Realmente apuntan a webs que son referencias imprescindibles en sus respectivos campos. Si Google pierde recursos como estos, sus resultados se degradan.

Además, hay diversos algoritmos (que yo sepa, no aplicados, pero que bien podrían aplicarse) como Hilltop o Trustrank cuyo primer paso consiste en identificar recursos como Wikipedia, grandes webs con extensas y esmeradamente escogidas colecciones de enlaces hacia webs que sean autoridades en sus campos. ¿Cómo aplicar uno de estos algoritmos si esos recursos te dicen que no leas sus enlaces?

En mi opinión, el meollo del asunto Sandbox es éste:

Tradicionalmente, la posición de una web en Google para un resultado concreto dependía de dos factores principales:

1) Factores basados en las técnicas tradicionales de recuperación de la información (I.F., information retrieval), es decir, concordancia de texto entre la búsqueda y el texto indexable en la propia web (factores on the page) o asociado (anchor text), ponderado de acuerdo a algotimos de ordenación de resultados (mayor peso en títulos y anchors, contigüedad, etc.).

2) El famoso PageRank.

Básicamente, eso era todo. Añádele unos cuantos filtros (detección de duplicados y tal), algo de geolocalización, alguna zarandaja más, y ya tienes un buscador. Grosso modo, ante una búsqueda, Google calculaba:

Puntuación I.R. x PageRank = Posición

La influencia del PageRank en este cálculo dependerá de la escala en la que esté expresado, de manera que puede tener más o menos peso.

Como ya sabemos, los factores on the page son fácilmente manipulables, y el éxito de Google se debió a introducir otros factores menos manipulables. Menos manipulables, pero manipulables al fin y al cabo, y a finales de 2003 ya eran de dominio público las técnicas para hacerlo. Intercambios de enlaces, compra de PageRank, guestbook spam, y otras técnicas, funcionaban a las mil maravillas. Empezaba a ser difícil encontrar sectores que no estuvieran siendo manipulados por SEOs.

Google introdujo por primera vez en la Googledance Florida (noviembre de 2003) otro elemento en la ecuación que alteró de forma significativa los resultados para algunas búsquedas.

Este elemento nuevo debe actuar como contrapeso de los ya conocidos y manipulados, y servir como un indicador de la confianza que Google puede asignarle como posible fuente de resultados. De ahora en adelante lo llamaré MysteryRank.

Así pues, el nuevo Google calcula:

Puntuación I.R. x PageRank x MysteryRank = Posición

Pero de esta manera sólo hemos trasladado el misterio del Sandbox al no menos misterioso MysteryRank, aunque hemos explicado cómo puede interactuar con los elementos ya conocidos de los algoritmos de Google. Entonces, ¿qué es lo que mide el tal MysteryRank?

Antes de continuar la saga del Sandbox, unos apuntes actualidad.

- La página principal de MSN ya utiliza los resultados del buscador que empezaron a desarrollar a todo trapo tras la compra de Inktomi por parte de Yahoo. El veredicto: manipulable.

- El tema del día es la nueva etiqueta que Google propone a los sistemas de publicación de blogs para eliminar los efectos positivos que reciben las webs en las firmas de los comentarios, en un intento de minimizar el blogspam. Más allá de si es una medida acertada o no, es interesante que desaparezcan los últimos rastros de una ficción, aquella según la cual los webmasters debían continuar haciendo webs sin pensar en Google. Google hace tiempo que alteró el ecosistema internetero. Esta etiqueta hecha a medida (no creo que si la iniciativa hubiera partido de otro de los buscadores que la han adoptado la noticia hubiese tenido el mismo impacto) no hace más que confirmalo.

- Hace unos meses escribí un artículo sobre el Open Directory. El otro día vi que aparece listado en el propio Open Directory. Es la primera vez que aparece en Dmoz una página mía sin que la haya enviado yo. Gracias al laborioso editor, sea quien sea.

Verlo para creerlo (via searchengineblog.com).

¿A alguien se le ocurre un buen texto de pie para esas fotos?

La mayor diferencia pre- y post-Florida es esta:

Antes del update Florida, el posicionamiento en Google tenía bastantes puntos establecidos objetivamente. Después de todo, conocíamos la ’salsa secreta’ de Google, el PageRank, ya que los trabajos de sus fundadores estaban publicados, y había varios artículos ayudando a aquellos que no estamos muy duchos en matemáticas a interpretarlo. Era relativamente fácil, incluso, llevar a cabo experimentos controlados. Existía un importante consenso entre optimizadores profesionales o expertos respecto a lo que funcionaba y lo que no funcionaba.

Para Google, esto suponía un problema, y probablemente es una de las muchas razones que hay tras los cambios. Las claves para posicionar una web eran de dominio público.

En estos tiempos post-Florida, todas las opiniones se lanzan desde la experiencia personal subjetiva. No hay nada demostrado. A diferencia de la guía, cuyo contenido estaba bastante contrastado, todo lo que diga aquí es simplemente mi opinión, y como tal debe ser tomado.

Yo sé que no tengo todas las respuestas. Pero debo seguir promocionando webs a través de los buscadores. Por tanto, he seguido trabajando a partir de diversas hipótesis. Trabajar sobre una base tan poco sólida no es la solución idónea, pero no puedo quedarme de brazos cruzados esperando a que alguien revele qué hay tras el Sandbox (cosa que quizá nunca suceda). Las primeras hipótesis las descarté al poco tiempo. Las que explicaré aquí son las que hasta ahora no han fallado.

Cada vez que en los foros de Internet se discute el tema Sandbox, un porcentaje de los mensajes se pierden en discusiones estériles sobre el nombre.

Los castellanoparlantes quizá no nos demos cuenta de la connotación del término “sandbox”. En inglés, “sandbox” de utiliza originalmente para referirse a las zonas acotadas para juegos infantiles, pero en el mundo de la informática ha pasado a usarse a menudo para referirse a ambientes de desarrollo en los que se perfilan nuevos productos antes de que maduren y salgan al mundo real. Es fácil suponer que, en la mente de quien bautizó a este fenómeno de Google como ’sandbox’ anidaba un concepto erróneo: que las webs tardaban en alcanzar posiciones, pero que era cuestión de tiempo que las cosas volvieran a su cauce.

Pero las cosas no han sido así: quien haya pensado que sólo debía esperar para que el posicionamiento estilo pre-Florida dieran sus frutos, ha perdido el tiempo esperando. Puede que algo así suceda en el futuro, pero es mejor no contar con ello.

Es por ello que en los foros se desatan discusiones viscerales sobre el nombre. Pero es ridículo preocuparse de eso a estas alturas: sandbox ya es un nombre bien establecido. Simplemente, hay que dejar claro que en el nombre no está la solución.

Desde que escribí la guía, el mundillo del posicionamiento en Google fue sacudido principalmente por dos fenómenos: Florida, un update de Google de noviembre de 2003 (joder, cómo pasa el tiempo) que tumbó a una gran cantidad de webs, y el efecto Sandbox, o la aparente incapacidad de las webs de nuevo cuño para alcanzar posiciones que antes era relativamente fácil conseguir, y que empezó a documentarse a partir de marzo del 2004.

Estos dos fenómenos, seguramente dos caras de la misma moneda, redefinieron por completo el mundo de la optimización para Google.

En los siguientes días dedicaré unas cuantas entradas a compartir mis ideas sobre estos temas.

Bienvenidos a mi blog.

Básicamente, lo voy a usar para ir publicando notas sobre los cambios que debería introducir en la guía de posicionamiento para su versión 2.0, de forma que cuando por fin me ponga manos a la obra ya tenga una recopilación de lo que debo cambiar.

También señalaré las novedades que me llamen la atención acerca del mundo de los buscadores y la promoción por internet en general, pero no será una recopilación sistemática de noticias, de modo que las actualizaciones tenderán a ser bastante erráticas.

Y por supuesto, masajearé mi ego publicando opiniones sobre cualquier cosa que me apetezca y que seguramente sólo me importarán a mí. Después de todo, hey, esto es un blog.