Desde hace décadas que Google dice “Content is king” o que el contenido es lo más importante. Más allá de que esta afirmación no es necesariamente 100% correcta (existen otros factores muy importantes que pueden posicionar una página sin contenido relevante como backlinks, velocidad de carga de página, etc.), está bastante alineada con la esencia del funcionamiento del buscador. ¿Qué busca la gente? Contenido. Ya sea en forma de texto, videos, imágenes, etc.
Hoy vamos a ver algunos términos avanzados que se fueron volviendo populares en el mundo del SEO a pesar de que ya existían en el campo de la estadística. Al terminar de explicarlos les vamos a regalar un script para Google Sheets que te va a permitir darle más peso a tus auditorías incorporando una de estas técnicas avanzadas de análisis de texto.
Qué es el LSI
El LSI o Latent Semantic Indexing (o Latent Semantic Analysis) básicamente, el consiste en el análisis de términos sueltamente relacionados con las palabras claves principales para agregar una capa más de relevancia al contenido. Una forma fácil de explicar qué es el LSI es llamarlo (hablando mal y pronto) “keywords terciarias”.
Veamos un ejemplo de LSI: Si la keyword principal para una página es “alquiler de canchas de fútbol” y una keyword secundaria es “papi fútbol”, algunos términos terciarios podrían ser “pelota, corner, árbitro, etc.”
Se discute bastante acerca de si el LSI es útil para la optimización SEO de un contenido ya que las keywords terciarias están asociadas con la keyword principal de forma tan suelta que tal vez Google ni siquiera considere la relación significativa. Dejando a Google a un lado y enfocándonos en los usuarios (irónicamente, lo que el buscador nos pide que hagamos), al agregar keywords LSI a tu contenido estás agrandando la red de términos long tail por los cuales puede posicionar tu página, así que recomendamos hacer un breve análisis de keywords terciarias si se está en la etapa de “optimización fina” de un sitio que ya está bastante bien trabajado para SEO.
En resumen, el LSI es considerado poco útil para algunos en la comunidad SEO pero no va a lastimar a tu sitio. Invertí algo de tu tiempo en optimizar tu contenido agregando keywords terciarias si los esfuerzos de optimización que causan mayor impacto en el posicionamiento de tu sitio ya fueron realizados.
Prueba de legibilidad de Flesch Kincaid
Algunos SEOs usan la prueba de Flesch Kincaid para determinar el nivel de facilidad con el cual Google va a comprender el contenido de una página. Básicamente, este test toma como premisa que (en idioma Inglés, pero también aplica en esencia para el español) las palabras más difíciles tienen mayor cantidad de sílabas y las oraciones más complicadas tienen mayor cantidad de palabras. Si te costó entender bien la oración anterior, acabás de comprobar que las oraciones más largas suelen ser más complicadas de comprender que las cortas.
Explicado en criollo, el test de legibilidad Flesch Kincaid toma en cuenta los siguientes factores para determinar la facilidad de lectura de un documento:
- El largo de las palabras usadas
- La cantidad de palabras en las oraciones
La función de Flesch Kincaid es la siguiente:
fuente de imagen: Wikipedia
Esta cuenta nos devuelve un número del 0 al 100. El número nos indica la facilidad de lectura del texto analizado.
En el puntaje de legibilidad Flesch Kincaid, un número alto significa que el texto es fácil de entender.
La premisa es que si el texto de una página web es difícil de entender para un humano, mucho más para los algoritmos NLP (natural language processing) de Google.
Un ejemplo nacido en el cerebro de los algoritmos de Google son las distintas implicancias que tiene cada palabra con aquella que modifica en un texto corto vs. uno largo.
Si consideramos como un texto corto la oración “El SEO es un arte.”, observamos lo siguiente:
Si elegimos una oración más compleja, en cambio, vemos que se puede prestar a confusión aún al algoritmo de Google. En el siguiente ejemplo, vemos como Google analiza sintácticamente la siguiente oración:
El SEO es una de las más hermosas artes y consiste en, aunque no se limita a, la optimización (a veces considerada una mera edición) de los textos y contenidos para presentarle los mismos a Google y otros de forma amigable.
Qué es el TF-IDF
TF-IDF o Term Frequency, Inverse Document Frequency es un análisis que se hace de la frecuencia de repetición de un término o keyword en una página en comparación con el resto del sitio.
La función sería:
La función del TF-IDF se lee algo así como: el TF-IDF de una keyword en una página del sitio es igual a la frecuencia de repetición de esa keyword en la página por el logaritmo del total de páginas en todo el sitio sobre el número de páginas que contienen la keyword que se está analizando.
Cabe destacar que hay quienes consideran al TF como el número total de repeticiones de la keyword en una página sobre la cantidad total de keywords en esa página.
Ejemplo de TF-IDF
Veamos un ejemplo de TF-IDF: Supongamos que tenemos un sitio que habla acerca de distintos tipos de té y en total tiene 50 páginas. Queremos saber cuán importante es la keyword matcha (un tipo de té verde) en una página. Para no complicar el ejemplo, vamos a utilizar páginas con una única oración.
Página 1: El té verde es saludable.
Página 2: El matcha es un tipo de té verde.
El TF de la keyword “matcha” en la página 2 es de 1 sobre 5 porque figura una vez dentro de un página con 5 palabras
El IDF de la keyword “matcha” dentro de todo el sitio (S) es igual al logaritmo de 2 sobre 1 porque, dentro de las 2 páginas que componen al sitio, figura 1 vez la keyword.
Si multiplicamos el TF por el IDF nos da 0,0375
El TF-IDF de la keyword matcha en la segunda página de nuestro sitio es de 3,75%
Ahora analicemos el TD-IDF de la palabra “es” (que se repite más que “matcha”)…
El TF de la palabra “es” en la primera página es de 1 sobre 5 porque figura una vez dentro de una página con 5 palabras.
El TF de la palabra “es” en la segunda página es de 1 sobre 8 porque figura una vez dentro de una página con 8 palabras.
El IDF de la palabra “es” dentro de todas las páginas que componen al sitio es igual al logaritmo de 2 sobre 2 porque, dentro de las 2 páginas que componen al sitio, figura 2 veces la palabra
El TF-IDF de la palabra “es” en la primera página del sitio es igual a 0%
El TF-IDF de la palabra “es” en la segunda página del sitio es igual a 0%
En resumen, la keyword “matcha” es más importante en nuestro sitio que la palabra “es”. Esto puede resultar obvio a simple vista (además “es” puede ser considerada una stopword) pero si tenemos un sitio compuesto por 1500 páginas y queremos saber el TF-IDF para una keyword dentro de ese corpus de texto, el resultado deja de ser evidente a simple vista.
Bonus!: Cómo calcular el TF-IDF con Google Sheets
Escribí un pequeño script para Google Sheets que te permite calcular el TF-IDF para poder ajustar la optimización de tu contenido acorde. El código es open source así que cualquier sugerencia, mejora, etc. la pueden hacer directamente en el GitHub del snippet.
Abramos la conversación en los comentarios. ¿Usan estas métricas en sus estrategias SEO? ¿Usan otras?
Como siempre, sigan leyendo para enterarse de más recursos de optimización web y ¡buenos rankings!