Dilbert

(Clica la imagen para ver la tira completa.)

Entretetiene a la par que educa:

Google Trends

Hace unos meses, Michel apuntaba que al buscar ‘busco un seo’, Google devolvía en parte resultados para ‘busco sexo’. Dado que es un efecto que cada vez aparece más frecuentemente en google.es (en inglés ya era frecuente desde hace un par de años), vamos a ver por qué se produce.

El culpable más probable es el sistema de Google para identificar sinónimos o “descripciones equivalentes”, tal como aparece en la patente “Methods and apparatus for determining equivalent descriptions for an information need“. La patente fue presentada el 2002 y se concedió el 2005; si está en uso, seguramente difiere de la manera en que se presentó, pero para simplificar las explicaciones, vamos a suponer que se ha aplicado tal cual como está escrita.

El objetivo de la patente es identificar distintas maneras que un usuario puede buscar un mismo concepto, para poder devolver resultados de acuerdo con el concepto buscado, en lugar de con las palabras exactas. Para obtener estas equivalencias se sigue este proceso:

  • Identifica las búsquedas realizadas por un mismo usuario en una misma sesión.
  • Analiza las búsquedas para comprobar si hay términos comunes y considera los términos no comunes de esas búsquedas candidatos a equivalentes; por ejemplo si un mismo usuario ha buscado en una sesión “hoteles españa” y “hotel españa”, “hotel” y “hoteles” se considera candidato a equivalente.
  • Dependiendo de cuántas veces aparezcan esos candidatos, tienen una mayor o menor puntuación para ser considerados equivalentes.

Se ofrece este ejemplo para calcular la puntuación:

A partir de las búsquedas:

USUARIO 1
palo alto hotels
palo alto inns
san francisco inns

USUARIO 2
san francisco hotels
san franscisco inns
palo alto inns

Se crearían los candidatos:

hotels > inns
palo alto > san francisco
san francisco > palo alto

Y se obtienen las siguientes puntuaciones, resultado de dividir las veces que aparecen los candidatos a equivalentes por las veces que aparece en total la primera parte de los candidatos:

hotels > inns (1.0)
palo alto > san francisco (0.333)
san francisco > palo alto (0.333)

Se propone una puntuación mínima de 0.1 para convertirse en equivalente.

(Eso querría decir que de cada 10 veces que alguien busca ’seo’, por lo menos en una se trata de un error de tecleo que luego es corregido para sustituirlo por ’sexo’. Lo cual puede querer decir que ’seo’ es una búsqueda muy poco popular en Google en español. Me veo en la obligación de hacer el chiste de rigor: también es posible que haya un número de gente muy grande a la le tiembla el pulso al hacer ciertas búsquedas; o que teclean con la mano con la que no suelen hacerlo por tener la otra ocupada.)

En la patente se dicen algunas otras cosas de interés, como una técnica específica para identificar la equivalencia entre unas siglas y su forma desarrollada, la posibilidad de extraer las equivalencias de los anchor texts en lugar de las búsquedas, y una técnica para diferenciar formas equivalentes de formas alternativas (por ejemplo, ‘hertz’ y ‘avis’ serían formas alternativas, no equivalentes: para decidir si es una cosa o la otra, se comprueba el grado de co-ocurrencia en los documentos de la base de datos).

Por último, ¿tiene todo esto importancia en el posicionamiento? Sí, pero sólo hasta cierto punto. Si os encargáis de una página realmente importante, a la que Google considere una autoridad, podéis preocuparos un poco menos por optimizar las páginas para una forma concreta, ya que Google se encarga de establecer equivalencias entre singulares y plurales, etc.

Un ejemplo práctico: si buscamos “casas blancas” vemos la página de la Casa Blanca en español en segundo puesto. Si buscamos “+casas +blancas“, ha desaparecido (el signo “+” desactiva la búsqueda de equivalencias), con lo cual podemos asumir que esa forma exacta no aparece, y está en el segundo puesto excusivamente gracias a su gran autoridad y a la equivalencia entre “casa” y “casas” y “blanca” y “blancas”; sin embargo, si tuviera la forma “casas blancas” en la página, con casi total seguridad sería primera. Por tanto, si tenemos la forma exacta que se ha buscado, seguiríamos teniendo ventaja (si todos los otros criterios fueran iguales).

(Confieso que he escrito este post como consecuencia de estar presente entre los 100 feeds escogidos por RSSFácil y sentir cierta mala conciencia por no haber blogueado desde hace muuucho tiempo nada medianamente serio.)