img

TF-IDF | Term Frequency - Inverse Document Frequency

Sin dudas uno de los tres principales factores de influencia sobre posicionamiento en SEO es el contenido, y la forma en que éste es generado siguiendo distintos parámetros de optimización.

Ahora bien, para conocer qué tan relevante es el contenido de un sitio para la consulta que realizó el usuario surge el término TF-IDF (term frequency - inverse document frequency) un primo hermano de lo que era conocido hasta hace un tiempo en la vieja escuela del SEO como keyword density.

La utilización de este último concepto comenzó a disminuir por posturas contrapuestas ante la idea de que mientras más veces se repita una keyword en una página, mayor sería su relevancia.

En este contexto y, en el marco del machine learning, surge entonces el TF-IDF. Este determina un valor numérico que define la importancia de una keyword particular dentro de todo un sitio. Saber esto es importante porque si, por ejemplo, tenemos un sitio de venta de café y la keyword ‘café’ tiene un TF-IDF bajo, el término no se está optimizando correctamente para SEO.

Para comprender mejor el concepto pongamos un ejemplo. Un sitio web está compuesto por dos páginas:

-el café espresso (página 1)

-el café espresso americano (página 2)

El primer paso va a ser analizar cuantas veces se repite cada palabra en el contenido de las páginas que estoy analizando:



Vemos entonces que todas las palabras se repiten 2 veces, a excepción de la keyword “americano”. Esto nos hace interpretar entonces que las tres primeras palabras son las que presentan mayor frecuencia de término (TF), mientras que “americano” es la que tiene menor repetición dentro del sitio, correspondiente a la frecuencia de documentos inversa (IDF).

No se puede determinar con exactitud cual es el porcentaje adecuado para que un contenido posicione ante una búsqueda específica.

Por otro lado, no debemos dejar de pensar que los textos deben ser redactados siempre pensando en el usuario, y no tomando el motor de búsquedas como el objetivo principal, por lo cual repetir los términos relevantes será favorable, siempre y cuando los mencionemos en contextos necesarios, sin abusar de la utilización del mismo, ya que esto puede resultar contraproducente.

Cómo determinar la frecuencia de términos


Si te interesa conocer un poco más en profundidad cómo se determina el valor que mencionamos antes, entonces seguí leyendo este apartado :)



Tomemos el ejemplo que vimos anteriormente. Para conocer la frecuencia de término (TF) debemos hacer el siguiente cálculo para cada palabra que esté dentro de cada documento:



Ahora reemplacemos con una de las palabras: la frecuencia de término de la palabra “el” dentro del documento 1 es igual a cuantas veces se repite el término, sobre la cantidad total de palabras en el documento 1.

Esto determina que el TF para la palabra “el” dentro del documento 1 es de 0,33.



El próximo paso es hacer lo mismo para la palabra “el” dentro del documento 2. Si reemplazamos en la fórmula nos quedaría algo así, y el valor de TF en este caso sería 0,25.



Nos queda ahora calcular el valor de la frecuencia de documentos inversa (IDF), lo que tenemos que hacer es reemplazar los datos que tenemos, en la siguiente fórmula:



Esto quiere decir que IDF es igual al logaritmo de la cantidad total de documentos dividido la suma de todas las veces que un término se repite en el documento.

Si lo pasamos al ejemplo que ya vimos, el valor de IDF sería 0 (cero) y nos quedaría algo así:



Para finalizar y determinar nuestro valor de TF-IDF debemos saber que:

por lo tanto, reemplazamos con los valores que calculamos para la palabra “él” dentro del documento 1 y el documento 2, y llegaríamos a que el TF-IDF para ambos es cero.

¡Conversemos para conocer cómo potenciar su crecimiento!