Uno de los conceptos que seguro habrás escuchado cuando se habla de SEO es el de la “indexación”.
La indexación es uno de los elementos más importantes que debemos cuidar de nuestro sitio, y es que una web que no está indexada no es visible en los resultados de búsqueda de Google o cualquier otro buscador.
Lo mismo, si tienes un contenido indexado que no debería mostrarse en Google, esto probablemente afecte tu posicionamiento.
Veamos ahora una definición más específica sobre la indexación, seguido de algunos consejos para optimizarla. ¿Me acompañas?
¿Qué es la indexación?
Para entrar definir la indexación, primero debemos conocer cuál es el proceso que lleva Googlebot (partiendo de que Google es el buscador más utilizado) para una URL sea visible en sus resultados de búsqueda:
Rastreo: Google utiliza “spiders” o arañas para recorrer los diferentes sitios. El recorrido puede ser forzado o no. Es forzado cuando hacemos alguna acción para que este rastreo se dé (más adelante lo veremos), mientras que en algunos sitios va entrando de forma regular.
Indexación: una vez se hace este recorrido, Google decide si mostrar o no a este contenido en sus resultados de búsqueda. En caso de que sí lo muestre, tu URL o web estará “indexada”. La velocidad en que indexa un contenido puede ser un factor determinante, en especial en webs de Noticias.
Publicación: Google clasifica este contenido y te asigna una posición en su ranking para las distintas querys.
Teniendo todo esto asimilado, definamos la indexación como el proceso en el que los buscadores encuentran, analizan tu contenido, lo guardan en su base de datos y posteriormente le dan visibilidad en los resultados de búsqueda.
Diferencia entre indexación y rastreo
Google indexa lo que considera relevante, por lo cual una página rastreada no necesariamente será una página indexada.
De igual forma, nosotros podemos hacer que Google sí pueda acceder (rastrear) algunas de nuestras URLs e indicarle que no son indexables.
Más adelante lo veremos a detalle pero, mientras tanto, piensa qué páginas de tu sitio no deberían mostrarse en el buscador y cuáles sí deben verse.
Un caso práctico son las páginas de avisos legales y política de privacidad. ¿Realmente deben estar indexadas? No, en lo absoluto. De hecho, si copiaste y pegaste una política de privacidad en tu web de un tercero y esa URL está indexada estás incurriendo en contenido duplicado.
¿Cómo ver cuál es tu status de indexación?
1.Comando “site:” en Google
Si quieres saber cuántas URLs de tu sitio están apareciendo en Google basta con usar el comando site:tudominio.com en la barra de búsqueda.
Como resultado obtendrás el total de URLs indexadas, tal como se muestra en el siguiente ejemplo:
2. Herramienta de Google Search Console
Conocer el estatus de páginas indexadas desde Google Search Console es muy sencillo. Para verlo debes situarte en la barra lateral izquierda > Cobertura > “Válidas”.
El mismo Search Console te mostrará también cuáles URLs no se están mostrando por algún error o si está válida pero con advertencias.
Por lo general esto sucede cuando existe algún motivo tu URL fue rastreada, Google intentó indexarla pero algún problema lo impide. Algunos de los problemas más comunes son: errores 4xx, 5xx o que la URL esté incluida en el Sitemap pero no sea indexable, como lo vemos a continuación:
Se te mostrará el total de URLs con problemas y, si haces clic encima, te las listará. Este listado puedes exportarlo y luego trabajar sobre un Excel o Spreadsheets.
También puedes usar la herramienta “Inspección de URL” para verificar una página en concreto:
3) Extensión Seerobots
Importante: más que conocer si la página está indexada, esta herramienta te muestra si puede serlo o hay una directriz que lo impide.
Una forma fácil de saber si una URL puede ser indexada o no, incluyendo en webs de tu competencia o a las que no tengas acceso en Search Console es utilizando la Extensión Seerobots.
Para usarla debes entrar en la URL que quieres analizar y hacer clic encima de la extensión. Allí te mostrará si es rastreable e indexable:
4. Screaming Frog
Pasa muy parecido que en el punto anterior, y es que con Screaming Frog sabremos cuáles URLs pueden ser indexables o no, pero no conocer realmente si están indexadas.
Para ello abre Screaming Frog > Añade la URL de tu web > Comienza el rastreo.
Una vez finalizado verás que en las columnas estarán las siguientes “Indexability” e “Indexability Status”:
Recuerda que este listado también puedes exportarlo y posteriormente trabajarlo desde un Spreadsheets o Excel.
¿Cómo mejorar tu indexación?
Uso de Google Search Console para la indexación manual
Si acabas de publicar una página y quieres que se visualice instantáneamente en el buscador puedes usar la herramienta de Google Search Console para ello.
Para completarlo solo debes ir a Inspección de URLs > Inserta tu URL
Te aparecerá el mensaje “La URL no está en Google”. En la esquina inferior derecha tendrás la opción de solicitar la indexación manualmente, haz clic allí y espera el siguiente mensaje:
Ya con esto habrás completado la indexación manual. Del resto solo queda esperar unos minutos para comprobar mediante el comando “site:” si la URL aparece en Google o no.
Sitemaps.xml
Los sitemaps son un fichero en formato .xml que facilitan la lectura y el rastreo por parte de Googlebot a los contenidos de tu sitio. Antes de implementarlo, asegúrate que todas las URLs incluidas en tu sitemap tengan status code 200.
Si bien existen diferentes métodos para crearlo e implementarlo, entre los más usados están los siguientes:
Sitemap con Screaming Frog
Esta poderosa herramienta también te puede ayudar a generar tu sitemap fácilmente. Para ello debes Rastrear tu sitio > Sitemaps > XML Sitemaps > Siguiente y automáticamente se descargará un fichero .xml que luego debes subir al FTP de tu dominio.
Si usas Wordpress puedes instalar un plugin que automatice la creación de sitemaps en tu sitio. Hay algunos generalistas en lo que a SEO se refiere, como Rank Math o Yoast, pero también puedes usar alguno como “Google Sitemaps XML” que es el que yo suelo utilizar.
Los sitemaps dinámicos suelen utilizarse en sitios en los que el contenido publicado va cambiando constantemente y es necesario que Google indexe tu contenido conforme a ello. Esto sucede sobre todo en el caso de los portales de noticias.
Para armarlo puedes hacerlo usando PHP, Javascript o Python. Si no conoces sobre estos lenguajes te recomendamos que lo plantees a un programador web.
Interlinking
Google rastrea el contenido mediante enlaces (internos o externos). En el caso de que publiques una nueva página y esta no reciba enlaces, tu URL será “huérfana”, y esas URL’s huérfanas son más complicadas de indexar.
Por lo tanto, una buena recomendación es que una vez publiques nuevo contenido, este contenga enlaces entrantes desde otros del mismo sitio.
Un plus sería enlazar esa URL desde las páginas más visitadas o con mayor cantidad de backlinks.
Si bien estas son las más importantes, también puedes potenciar la indexación a través de herramientas con API Indexing (limitada por los momentos) o mediante Backlinks.
¿Cómo bloquear y controlar la indexación de mi contenido?
Controlar la manera en cómo está indexando tu sitio es una excelente forma de mejorar la salud del mismo y por ende potenciar su posicionamiento en Google.
Para ello existen distintas herramientas y directrices que podemos usar para que una URL, categoría, tipo de archivo e incluso una web entera desaparezcan de los resultados de búsqueda:
Robots.txt
El archivo Robots.txt indica a los crawlers (no solo Googlebot) hacia qué secciones del sitio puede o no puede pasar.
Para evitar que Google Bot no rastree alguna sección de tu web basta con aplicarle la directiva “Disallow”.
Imaginemos que quieres evitar que rastree la política de privacidad, pues en ese caso la directiva a incluir sería la siguiente:
User-agent: *
Allow: /
Disallow: /politica-de-privacidad/
Google toma en cuenta todas estas directrices como recomendaciones, y por lo general se cumplen. Sin embargo, existe la posibilidad de que pese al bloqueo desde robots.txt Googlebot decida rastrear igual manera.
Otro caso en el que ocurre el rastreo pese al bloqueo desde Robots.txt es cuando alguna URL bloqueada recibe enlaces internos desde otras páginas rastreables e indexables.
Etiqueta Noindex dentro del metarobots
Así como existen etiquetas semánticas como el <h1> o <h2> para contextualizar tu contenido, también hay una etiqueta llamada “meta robots” que indica a los crawlers si deben o no rastrear e indexar una página.
A esta etiqueta se le pueden agregar los siguientes atributos:
Index: la URL puede ser indexada en el buscador.
Noindex: la URL no puede ser indexada en el buscador.
Follow: la URL puede ser rastreada.
Nofollow: la URL no puede ser rastreada.
Si quieres que tu contenido esté desindexado tu meta robots quedará de la siguiente forma:
<meta name=“robots” content=”noindex”>
Este fragmento de código debe incluirse entre etiquetas <head> de la URL que quieres modificar.
Lo único a tener en cuenta: ¡ten cuidado de no aplicarlo a todo el sitio!
Herramienta de retirada de URL
Search Console una vez más nos permite tomar el control y desindexar contenido de una forma bastante práctica y rápida. También nos permite hacerlo modo bulk para retirar cientas de páginas al mismo tiempo (en caso de que tengas muchísimas URL’s en tu web).
Para ello ve a la barra lateral izquierda > Retirada de URL’s > Nueva solicitud > Introduce la URL que quieras indexar y haz clic en “Siguiente”.
En caso de que quieras retirar un directorio completo, puedes colocar la opción “Retirar todas las URL’s que contengan este prefijo”, así ya podrías sacar en un clic a todo un segmento de tu web.
Recomendaciones Finales
Hacer seguimiento a tu cobertura en Google Search Console, mirar cuántas URL’s están indexadas en Google y determinar qué páginas quieres que aparezcan o no será fundamental para controlar tu indexación.
En el caso de medios (Portales de Noticias), optimizar sitemaps para mejorar la indexación del contenido es fundamental. En ese caso implementa un sitemap optimizado para Google News, mientras que también te recomiendo eliminar sitemaps de años anterior para mejorar la frecuencia de rastreo e indexación.
Y tú, ¿cómo controlas tu indexación? ¿Tienes algún método novedoso para indexar?