Retirar contenido obsoleto es algo habitual hoy en día y el uso incorrecto de esta práctica puede perjudicar el posicionamiento orgánico del sitio.
Por eso a continuación, vamos a ver cuando y cómo eliminar una url de del índice Google paso a paso, te ayudaremos a escoger el método más apropiado y a realizarlo.
Por qué desindexar una o varias url’s de Google:
Hay varias razones lógicas para realizar una estrategia de desindexación, por eso, antes de explicarte como desindexar una página de google te daremos todas las causas que se nos han ocurrido que abren paso a la estrategia.
Razón 1: Tienes canibalizaciones malignas
Una canivalización ocurre cuando dos url’s (páginas) de una misma web están posicionando la misma palabra clave (la misma intención de búsqueda). De esa manera, google dividirá la fuerza entre las dos en vez de en una, por lo tanto, va a ser muy complicado posicionar las dos páginas.
La solución que debes usar para eliminar la url de google o desinexarla debe ser mediante una redirección 301 apuntando la url de la página que NO quieres posicionar hacia la url que quieres posicionar.
Hay casos en que las canivalizaciones SEO son buenas. Por ejemplo si estas en 1a y 2a posición. En cambio si estás en 7a y 8a posición y realizas un redirect 301, seguramente escales posiciones a lo largo del tiempo.
Razón 2: No hacer perder el tiempo a los crawlers
Cualquier crawler como Googlebot tiene un presupuesto de tiempo asignado. Cuando ese tiempo se agote, se marcharán de tu web y pararán de rastrearla, por eso es conveniente que solo rastree las páginas importantes y no pierda el tiempo con las que no nos interesan.
Como es evidente, la solución para este tipo de problema es desindexar todas estas url de Google.
Razón 3: Contenido obsoleto
Si tu sitio web tiene contenidos o páginas antiguas indexadas, y el contenido está obsoleto y no es de valor, es recomendable desindexarlo del índice de google.
Hay diferentes maneras para retirar contenido obsoleto, sigue leyendo y verás cual se adapta más a tus necesidades 🙂
Razón 4: Páginas especificas
Hay diferentes páginas dentro de tu web que no se deberían indexar. Un ejemplo podría ser una landing page creada exclusivamente para campañas de Ads, o los textos legales entre otras.
Es totalmente recomendable desde mi punto de vista poner la metaetiqueta noindex a este tipo de páginas de tal manera de que no las indexe. En el caso de que ya las tengas indexadas en google, deberás desindexarlas siguiendo los pasos que te explicamos en unos instantes.
Razón 5: URLs canonicalizadas
Cuando tienes páginas muy similares, para que los buscadores no la cataloguen como contenido duplicado, se les aplica una etiqueta canonical apuntando a la principal. Por ejemplo en las variaciones de un producto de una tienda online.
Una vez puesta la etiqueta canonical, a lo largo del tiempo, google desindexara todas esas url.
Razón 6: Migraciones web/SEO
Normalmente, las migraciones se realizan en un entorno de prueba. La web entera de este entorno, debe de estar en «noindex», evitando que google o los demás buscadores indexen la web por completo.
En caso de que ya haya sido indexada, será urgente desindexarla, por eso vas a tener que usar la herramienta para eliminar URLs de Search Console. (Más tarde explicamos como).
Como saber si una url o una
página web ya está indexada
Para una url en concreto:
Añade el siguiente comando en el buscador de google:
site:url
site: lo debes dejar talcual.
url: lo debes remplazar por el enlace de la página que quieres verificar si esta indexada, no dejes espacio entre los dos puntos «:».
En caso de que salga el resultado en google estará indexada, en caso de que no salga nada, no estará indexada.
En este post te enseño cómo indexar una página web en google y los demás buscadores.
Para todas las páginas indexadas:
Si quieres verificar si una web está indexada en google, deberás seguir el mismo proceso pero en vez de poner la url después del site:, tendrás que colocar el dominio.
En mi caso, sería: site:fullseo.es
Solo reemplaza fullseo.es por tu dominio.
Si la SERP al realizar la búsqueda de ese comando sale vacía quiere decir que no hay nada indexado, pero si aparecen resultados quiere decir que estos se han indexado.
8 maneras para desindexar
una url de google (o una web completa)
Hay diferentes maneras de eliminar url de Google, a continuación te las mostramos de tal manera de que puedas decantarte por cualquiera de ellas.
1. Herramienta Eliminar URLs de
Search Console : La más rápida y eficaz
En la herramienta Google search console tendrás la opción de desindexar, borrar y eliminar una página o url del índice de Google. Actualmente es la manera más recomendable de desindexar una web o una página en concreto.
Sigue estos pasos para desindexar una url en google (o una página):
Tiempo necesario: 2 minutos
Pasos para desindexar una url o página de google con search console:
- Dirigete a «retirada de url» dentro de la sección «índice» en la barra lateral
- Haz clic en el botón rojo «nueva solicitud» dentro del apartado «retiradas temporales»
- En el popup introduce la url o la página que deseas desindexar
En caso de que desees desindexar toda la web, pon el dominio. Si solo quieres desindexar una url, deberás usar esta.
- Espera a que la desindexe
Puede tardar varias horas
IMPORTANTE
Esta es una retirada de url temporal, solo dura 6 meses, una vez pasado este tiempo nos la volverá a indexar. Para evitarlo puedes dejar la página en error 404 (eliminándola), añadiendo la etiqueta «noindex», bloqueándola en robots.txt o cualquier otra opción que verás a continuación.
2. Eliminar el contenido: Dejarla en error 404
Para que la página muestre un estado 404 (no encontrado) deberás eliminarla (desde wordpress o el sistema que uses). Una vez eliminada, cuando el crawler rastree la url varias veces y vea que no hay nada, dejará de rastrearla y la desindexará de su índice.
En caso de que no puedas eliminar la página pero la quieras desindexar, esta no es tu mejor opción.
3. Añadir un status code 410
Es algo muy similar al error 404 pero en este caso, el error 410 significa que la página ha desaparecido. Esta opción es algo más efectiva para desindexar ya que con el 404 le indicamos que al ser un error, la url puede volver a existir, pero en este caso con un 410 le estamos indicando que la página está desaparecida por lo que le decimos que «se ha ido» para siempre.
4. Etiqueta Noindex
El objetivo de añadir la etiqueta de meta robots noindex o una respuesta de encabezado x‑robots es insinuar a los buscadores que no queremos indexar la página.
En el caso de no querer que google nos indexe una página, deberemos añadir la etiqueta «noindex» a esta página. De esta manera le indicamos a los buscadores que no deben indexarla. Esto se puede hacer a mano o con cualquier plugin con esta función como yoast seo para wordpress.
Es importante que los crawlers tengan acceso a estas páginas para poder ver el «noindex», asegurate que no estas bloqueando a los crawlers mediante el robots.txt.
Ejemplo de una meta robots noindex:
<meta name="robots" content="noindex">
Si cumples una de estas dos opciones, posiblemente el «noindex» no sea tu mejor solución:
- Los usuarios no deben acceder a estas páginas. Ve a la sección de restricción de acceso.
- Necesito consolidar señales como enlaces. Ve a la sección de canonicalización.
5. Disallow en robots.txt
El robots.txt nos permitirá bloquear el acceso a los crawlers, de tal manera que no podrán entrar a la página y no podrán ver lo que hay dentro.
Esta no es una una opción para desindexar una página de google, bing, yahoo u otro buscador. Yo la uso más para prevenir que para curar. Solo nos servirá para evitar que google indexe una sección de nuestra web (o toda la web o solo una url o un archico…). Si puedes usar otra opción, mejor.
ATENCIÓN: Si bloqueas una página que esté en noindex, no te la desindexará tan fácilmente ya que al bloquearlo no podrá entrar para ver el «noindex».
6. Cabecera HTTP
Añadiendo la etiqueta X-Robots-Tag: noindex en la cabecera conseguiremos que Google no indexe la página. Si tienes una web en estado de preproducción, es una opción a contemplar.
Ejemplo de etiqueta noindex de x‑robots en la respuesta del encabezado:
HTTP/1.1 200 OK X-Robots-Tag: noindex
7. Restricción de acceso
En caso de que tu objetivo sea que determinados usuarios puedan acceder pero los motores de búsqueda no, puede que una de las 3 siguientes opciones concuerde con tu proyecto:
- Es algún sistema de inicios de sesión
- Tiene una autentificación http
- Usa una white list de ip
Normalmente, esta opción solo se usa en redes internas ya que el contenido es solo para unos usuarios específicos y no para los buscadores.
8. Canonicalización
Cuando una página de nuestra web es duplicada o muy similar a otra, es recomendable usar la etiqueta canonical. De esta manera evitaremos que nos detecte duplicidad de contenido.
El Canonical no es una directiva sino una etiqueta, puede que Google lo ignore o lo respete.
Infórmate muy bien antes de usar esta etiqueta, puede perjudicar el posicionamiento si no la utilizas siguiendo las directrices de google.
9. Desindexar masivamente mediante Sitemap
Los metodos previamente explicados solo sirven para desindexar una url o página en concreto, pero… ¿Y si queremos desindexar un gran número de url’s Y queremos que se de prisa?
En este caso, posiblemente la mejor opción sea usar search console, de todas formas, voy a explicar este método también.
Una vez añadido el noindex, el 410, 404, y/o demás a las páginas que queremos desindexar, tendremos que esperar una eternidad a que google las rastree varias veces para que se de cuenta que queremos desindexarlas.
La solución es crear un sitemap especifico para estas páginas (o incluirlas en el sitemap principal en caso de que sean poquitas url’s en proporción al resto de la web) y enviarlo a search console, de manera que lo rastreará más frecuentemente y en consecuencia las desindexará mucho más rápido.
Una vez esten todas (o la mayoría) de url’s desindexadas y eliminadas del índice de los buscadores, recuerda volver a dejar el sitemap como estaba.
Desindexar imágenes
Para eliminar imágenes de Google, la forma más fácil es con robots.txt. Si bien el soporte no oficial para eliminar páginas se eliminó de robots.txt como mencionamos anteriormente, simplemente no permitir el rastreo de imágenes es la forma correcta de eliminar imágenes.
La manera de desindexar una imagen de google o cualquier otro buscador es más sencilla. Normalmente se hace uso del robots.txt. En este caso debemos bloquear el acceso a las imágenes que queremos desindexar o no indexar, aunque puede que este proceso tarde tiempo en realizarse efectivo.
Para una sola imagen:
User-agent: Googlebot-Image Disallow: /url-relativa-imagen.jpg
Para todas las imágenes:
User-agent: Googlebot-Image Disallow: /
¿Conoces otra metodología? ¡No dudes en compartirla! Deja cualquier pregunta o aclaración en los comentarios, estaré encantado de responderos.