Hay webs con excelente contenido, abundante y renovado, sin embargo no aparecen en los buscadores con la relevancia que deberían tener. Su problema suele ser la indexabilidad.
Índice
1. La auditoría de indexabilidad
2. Herramientas disponibles
3. El archivo robots.txt
4. URLs duplicadas
5. Rastreo
6. Versión para móvil o smartphone
7. Auditoría de contenidos
8. Protocolo seguro HTTPS
9. Velocidad de carga de una página
10. Enlazado interno y externo
11. Consultas de búsqueda más frecuentes
12. Anchor text de los enlaces entrantes
La auditoría de indexabilidad
Se conoce como auditoría de indexabilidad la comprobación de un sitio web en cuanto a su accesibilidad por los robots de los buscadores. Muy lejos de ser un mero capricho, debe entenderse como algo muy necesario y como un coste a la hora de implantar cualquier negocio a través de una web. Y no sólo de un sitio web por publicar, sino como análisis de uno ya publicado. Es como una especie de chequeo médico, mediante el cual podemos encontrar problemas que ni siquiera sospechábamos que existían.
A veces el problema salta cuando una web pierde posiciones en los buscadores y no se sabe por que, aunque a veces se sospecha cuando ha habido una migración o una actualización.
Antes de publicar una web es necesario realizar la auditoria de indexabilidad. Las prisas nunca justificarán su omisión.
Los objetivos del análisis de indexabilidad son los siguientes:
- Que el sitio web sea encontrado por os buscadores
- Que no tenga problemas de navegabilidad, es decir, que se pueda acceder a a sus contenidos
- Que cumple los criterios de calidad
- Solucionar los problemas que se encuentran en los anteriores puntos
La auditoría de indexabilidad está formada por las siguientes partes:
1. Concepto: que tratamos de identificar y como afecta a la indexabilidad
2. Procedimiento: como detectamos los problemas y que herramietnas usamos
3. Diagnóstico: problemas encontrados
4. Recomendaciones: propuesta de soluciones a los problemas
Herramientas disponibles
Emplearemos la herramienta gratuita Google Webmasters Tools. Para usarla, tenemos que tener una cuenta en Google. Podemos añadir varios dominios a la misma.
- Páginas indexadas: la saturación es la relación entre páginas publicadas y páginas indexadas. Lo ideal es que sea el 100 %. Si está muy debajo, los problemas de indexabilidad pueden deberse a menús no rastreables (como Flash), contenido en ventanas pop-up, enlaces javascript, formularios autoenviados o formularios de búsqueda interna. A veces se puede superar el 100 % en períodos de transición o contenido duplicado.
- Archivos Sitemap: los archivos Sitemap indican todas las páginas que se deben indexar. Hay que enviarlos periódicamente a Google Webmasters Tools. En este sentido, si no se sabe como hacerlo, conviene leer este enlace: Como crear y enviar un Sitemap a Google.
- El contenido duplicado, del que trataremos a continuación, se puede comprobar con Siteliner.
El archivo robots.txt
El archivo robots.txt es un archivo de texto que creamos y subimos a nuestro sitio web, donde decimos a las arañas y buscadores que es lo que quermos que se indexe y que no. Es simplemente una consulta y no de obligado cumplimiento, por lo que si queremos realmente proteger ciertas partes de nuestra web hay mejorees opciones. Su uso más común es desindexar ciertas páginas y evitar que se indexe contenido duplicado.
Funciona con tres comandos:
- User-agent: nombre del robot
- Disallow: no se debe acceder, indexar o rastrear
- Allow: lo contrario del anterior, se debe acceder, indexar o rastrear
En este enlace, en este y en este puedes comprobar sus distintas opciones. Hay que tener en cuenta que Disallow/ bloque todo y si hay algo después bloquea lo que empiece por esa cadena, por ejemplo Disallow/search, bloquea las páginas cuyas rutas comiencen con la cadena/search.
Vemos nuestro archivo robots, tecleando la siguiente dirección en nuestro navegador:
https://www.nuestrositio.com/robots.txt
Podemos comprobar el archivo txt en Google Search Console, haciendo click en Rastreo y eligiendo Probador de robots.txt.
URLs duplicadas
Las URLs deben ser únicas, no puede haber dos URL con el mismo contenido (por ejemplo, una página y su versión imprimible), eso es contenido duplicado y no gusta nada a Google. Lo podemos comprobar con Google Webmasters Tools o directamente en Google, si tenemos una página de la que sospechamos, de la siguiente forma: site:nuestrositio.com "título de página", si nos devuelve más de un resultado, el contenido está duplicado.
URLs con http y https
Desde Google Search Console debemos dejar la dirección https. La redirección debe ser correcta.
Si accedes con http y https sin el correcto redirecionamiento, puedes tener problema de contenido duplicado. Se puede solucionar de esta forma..
Dominio con www y sin www
También pude haber contenido duplicado por este motivo. Hay que indicar a Google Webmasters Tools el dominio preferido, añadiendo previamente ambos dominios.
En WMTIPS comprobaremos los códigos de respuesta, introduciendo el sitio con www. Si aparece:
Response code | 301 (Moved Permanently) |
y
Response code | 200 (OK) |
Entonces no hay problema.
Contenido duplicado en subdominios
Cuando se crean subdominios de pruebas y no se eliminan, se puede acceder a una página desde dos subdominios distintos y eso es contenido duplicado.
Para solucionar el problema en el archivo robots pondremos:
User-agent: * Disallow: / dominio_que_queremos_que_no_aparezca
O incluímos la meta robots en cada página:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Si el problema viene por la orientación geográfica, podemos orientar geográficamente disintos subdirectorios (ejemplo, nuestrositio.com/uk) o usar hreflang.
URLs con y sin identificación de sesión y con y sin alguna variable enlazada
Puede haber problemas para la indexación si hay que autenticarse previamente. La solución es que el servidor sólo incluya un identificador de sesión en las URLs después de autenticarse el visitante.
También puede ocurrir que existan variables enlazadas, como de idioma o campañas). Para evitarlo hay que introducir una meta canonical en cada página susceptible de sufrir este problema. O bien indicarle a Google Webmasters Tools que ingnore el parámetro, por ejemplo, redirigir www.nuestrositio.com/home.php?lang=es → www.nuestrositio.com/
Dominios satélite y dominios espejo
Los dominios satélite son dominios que "orbitan" alrededor de un dominio principal. Puede definirse como un conjunto de dominios del mismo propietario que enlazan al dominio principal para traspasarle valor. Hace un tiempo se empleaaba esta estrategia para hacer subir una web. Hoy día, el algoritmo de Google se ha perfeccionado y detecta este truco, que ha ocasionado el desploma de algunos sitios.
Si las webs pertencen a un mismo grupo y los enlaces son naturales, es decir cuando lo pida el contexto, a veces recíprocos y a veces unidireccionales, es posible que el sitio principal no sea penalizado, si no por el contrario valorado.
Pero cuando se intenta que las webs parezcan de un propietario distinto, se abuse del número del enlaces, y todos son unidireccionales, apuntando al sitio principal, la web será penalizada.
Si el contenido de los dominios satélite es copiado del contenido del sitio principal, todavíc puede ser peor, pues el sitio puede ser penalizado.
Los dominios espejo son dominios con el mismo contenido, por ejemplo, orientados a distintos países o bien
Google elegirá uno y el otro lo considerará copiado.
Otros problemas de URLs duplicadas
Pueden venir de tener dos páginas con URLs distintas, pero con el mismo contenido, o por el uso de signos especiales como +,-,_,%. Estos casos se solucionan eliminando una página o indicando cual es la canónica.
Rastreo del sitio
Podemos emplear las herramientas GSite Crawler o Screaming Frog. Ambas hay que descargarlas e instalarlas. Este es un tutorial sobre GSite Crawler de Human Level y este tutorial de Screaming Frog es de Luis Villanueva. Con ambas herramientas se puede crear sitemaps.
Para establecer la frecuencia de rastreo, frecuencia con la que Google visita nuestro dominio, lo podemos hacer en Google Webmasters Tools. Una frecuencia elevada es conveniente en sitios con un gran número de páginas, pero necesita mayores recursos en el servidor. Se puede consultar el dato y aumentarla si se considera que no está aumentando adecuadamente el número de páginas indexadas.
La página raíz del dominio es la que tiene mayor popularidad, la que más enlaces entrantes recibe y desde la cual podemos explorar todo el sitio. Debemos cerciorarnos de que es la página principal.
A veces los contenidos se presentan paginados, con lo cual sólo se indexa la primera página. O metemos todos en una página o le indicamos a Google que indexe las otras.
La etiqueta "canonical" indica cual es la página de referencia. Es fundamental para evitar contenido duplicado.
En Google Webmasters Tools comprobraremos errores de rastreo, Rastreo → Errores de rastreo. Estos se deberán a seis causas: errores de URL en sitemaps, errores 404 (leves), inaccesible, no encontrado, Url bloquedas por robots.txt, y agotado el tiempo de espera.
La caché de Google
La caché de Google es una copia en sus servidores de las páginas indexadas por el buscador y nos muestra como ve Google nuestro sitio.
Para ello en el buscador tecleamos el nombre de nuestro sitio o nuestro dominio. Aparece en los resultados del buscador, en la URL que aparece hacemos click en la triángulo invertido al lado de la misma, En caché. Se nos abre la página tal como la ve Google.
Arriba nos aparece la fecha en la que ha tomado la "foto" o "pantallazo". Si han pasado más de 15 días hay que corregirlo con algún cambio en la misma, actualizarla con más frecuencia, dejar enlaces en redes sociales u otras acciones.
Si hacemos click en Versión de sólo texto, comprobaremos el texto rasteable y también si las imágenes llevan la etiqueta alt.
Otras comprobaciones
En Google Webmasters Tools en Rastreo → Explorar como Google, debemos comprobar si Google la ha renderizado correctamente. Si no, deberás solicitar la indexación.
También debemos analizar cual es la estructura de enlaces en nuestra web. Si los enlaces salientes son no follow no tenemos, en principio, que tener problema, pero si son enlaces follow (do follow), que dan autoridad, si no parecen estar realizados con naturalidad, variedad de anchor text (texto que se enlaza) y estar relacionado el contexto y el contenido, Google puede pensar que son enlaces comprados y penalizarnos.
Comprobaremos el archivo robots.txt, comprobando que esté todo correcto.
La URL debe tener el titulo o las palabras clave. Debemos elegirlas y no que se publique por las predeterminadas de la plataforma que estemos usando.
Si tenemos varios idiomas en nuestro sitio, la misma página en distinto idioma no puede tener la misma URL.
Debemos geolocalizar el sitio, con más motivo si tenemos un dominio geográfico, como *.co, *.es, etc., ya que Google valora positivamente que ambos coincidan.
El contenido flash o silverslilght no es fácilmente indexado. Flash desaparece definitivamente en 2020, así que es mejor cambiar a HTML5.
Los marcos (frames) se utilizaron en un tiempo que había poco ancho de banda. Hoy tienen sentido porque el contenido no es indexado correctamente por los buscadores.
Comprobaremos errores en el código (validación de código HTML). Entramos en el sitio W3C e introduciremos la dirección y nos dará los errores encontrados y como mejorarlos.
También realizaremos una validación de código CSS, usando el validador de código CSS W3C. Nos indica una serie de errores y advertencias.
AJAX permite cargar una página por partes, en vez de hacerlo de una sola vez y que tarde. Es compatible con la indexibilidad y con HTML5, pero si no se hace bien puede afectar a la indexabilidad. Comprobaremos si lo está haciendo bien y no hay partes de la página que no se carguen.
Analizaremos las cabeceras http/https del servidor para detectar que no hay redireccionamientos sospechosos de que los buscadores consideren cloaking (mostrar a los buscadores un contenido sobreoptimizado con palabras clave y a los usuarios otro muy distinto). Lo podemos comprobar con la herramienta ya vista WMTIPS y con la extensión para Firefox Live HTTP headers. También lo podemos hacer con Screaming Frog.
Los códigos de respuesta del servidor son los siguientes:
- 200 OK: correcto. La página existe en el servidor y no está redireccionada. En el caso de que haya dos dominios y un sólo servidor, sólo uno es el principal o canónico.
- Redireccionamiento permanente 301: se emplea al actualizar una página. Los dos dominios anteriores se redirigen al nuevo.
- Redireccionamiento temporal 302: es un dominio temporal que es trado como el canónico.
- Error 404 no encontrado: el servidor no encuentra la URL solicitada.
Malas prácticas que se deben evitar es redireccionamiento javascript a contenido distinto (se considera cloaking), refrescar la página, con meta refresh, tiempo 0 y contenido distinto (también se considera cloaking) y eliminación de la página de los buscadores a un determinado tiempo, etiqueta expires (a veces no la eliminan).
Que los enlaces contengan title. Normalmente el texto lo suele tener, pero a las imágenes hay que añadírselo.
Las introducciones al sitio web, tipo video, animación flash, popúp y similares disminuyen el posicionamiento, por lo que hay que suprimirlas.
Los servidores normalmente muestran la misma IP. Si tenemos alojado nuestro sitio web en un servidor que también tiene páginas para adultos o relacionadas con el spam, eso va a ser negativo para nuestro posicionamiento. Incluso algunas IPs están en listas negras de spam. Se pueden comprobar en Blacklist Check y MXToolBox.
El dominio cuanto más antiguo, más posibilidades tiene de posicionarse. Si el registro es para varios años también es valorado, ya que indica intención de continuidad.
El Page RAnk indica el valor que da Google a un dominio, desde 10 (Google) a 0 (sitio recién creado). Desde 2010 Google ya no lo hace público, aunque hay herramientas que hacen una estimación, como WMTIPS.
Versión para móvil o smartphone
Dado el uso actual de acceso a Internet mediante teléfonos móviles, Google valora muy positivamente la adaptación de las webs a los mismos. En especial:
- Que tengan un diseño adaptativo (responsive design). el sitio se adapta a un samartphone o tablet. Se comprueba al abrir el sitio desde un dispositivo móvil.
- HTML dinámico: no es fácil de comprobar, pero se puede intuir mediante las emulaciones o la extensión para Chrome User Agent Switcher y para Firefox
- Versión mobile específica: tiene un subdominio del tipo m.nuestrositio.com
Auditoría de contenidos
El título (etiqueta title) es uno de los elementos más importantes, en cuanto a palabras clave, para que una web adquiera relevancia. Tanto es así, que desde 2008, Google otorga títulos a páginas que carezcan de ellos.
El título aparece en los resultados de búsqueda.
Malas prácticas, en este sentido, son títulos duplicados, demasiado cortos o demasiado largos, o ausencia de ellos. el título debe ser único y, si es posible, no debe superar los 60 caracteres.
Otro elemento que aparece en los resultados de búsqueda es el snippet o fragmento de texto que escribe brevemente el contenido de una página. Suele coincidir con la metaetiqueta descriptiva. Por ello, debe estar bien redactado para conseguir captar la atención del usuario.
Malas prácticas son descripciones duplicadas, demasiado cortas o demasiado largas.
En Google Webmasters Tools, en Diagnósticos → Sugerencias en HTML, comprobaremos las páginas que tienen problemas.
La jerarquía de los encabezamientos H1, H2, H3, H4, H5 y H6 indica la relevancia de un texto, que aunque coincide con un texto resaltado tipográficamente, es un concepto distinto, no sólo de imagen, sino también de importancia.
Si no se usa, se recomienda usar H1 para el tecto que encabeza el contenido de una página, usando palabras clave.
Protocolo seguro HTTPS
En 2014, Google anunción que el empleo del protocolo seguro HTTPS sería considerado un factor de relevancia, ya que indica una valoración de la seguridad, siendo indispensable cuando se tratan valores confidenciales o personales.
Velocidad de carga de una página
Los robots de los buscadores valoran la velocidad de carga de una página (WPO, Web Performance Optimization). Desde 2010 es un factor de cara al posicionamiento.
Para hacerlo, hay que optimizar el código HTML (eliminar comentarios y espacios en blanco, usar CSS en lugar de tablas, etc.), optimizar Javascript (eliminar comentarios y funciones que no se usan, optimizar CSS (eliminar clases que no se usan), y comprimir o reducir el tamaño de las imágenes.
Enlazado interno y externo
En Google Webmasters Tools en la ruta Tráfico de búsqueda → Enlaces a tu sitio, podemos ver si tenemos hacia nosotros enlaces de páginas sospechosas o poco deseables apuntando a nuestro sitio. Podemos pedir que no las tengan en cuenta, usando la herramienta Disavow Links Tools. Otros webmasters opinan que, si se puede, es mejor eliminarlos manualmente, si son nuestros quitarlos, y si son externos realizar la petición.
Si el número de enlaces salientes a otros dominios es más elevado que el de nuestras propias páginas, estamos regalando más popularidad que a nosotros mismos.
Consultas de búsqueda más frecuentes
Son las palabras clave más frecuentes de nuestro sitio web con las que Google nos hace aparecer en los resultados de búsqueda.
Podemos consultarlas en Google Search Console, Tráfico de búsqueda → Consultas de búsqueda. La consulta nos devuelve impresiones, veces que aparecemos en los resultados de búsqueda y clics, veces que se hace clic en nuestra web.
Si la indexabilidad va por por buen camino la curva será creciente. Si es decreciente, debemos analizar que algo estamos haciendo mal. La solución es modificar las metaetiquetas y modificar los contenidos para enfocarlos en las palabras clave.
Anchor text de los enlaces entrantes
El anchor text es el texto visible de un enlace. Podemos consultar los entrantes a nuestra web en Google Search Console, Tráfico de búsqueda → Enlaces a tu sitio. Lo normal es que haya cierta variedad, desde una marca, nombre, nuestro dominio, una palabra clave, o simplemente ver más o haz clic aquí.
Un abuso de palabras clave en los anchor text hacia nuestro dominio puede ser interpretado como manipulativo y ser penalizado en los resultados de búsqueda. También es negativo que haya una proporción muy alta apuntando a la home, así como una proporción muy alta de enlaces do follow, un crecimiento anormal, enlaces desde sitios web y temáticas que no tienen nada que ver con la nuestra, enlaces desde columnas de webs, blogroll, pie de página o footer, y en general, un número excesivo de enlaces que no parezcan naturales.
Si tenemos muchos enlaces tóxicos, podemos pedir a Google que los desautorice mediante Google Disavow Tool.
Entradas relacionadas: Internet
Curso de SEO: la indexabilidad
Reviewed by DURI
on
enero 25, 2019
Rating:
No hay comentarios:
Publicar un comentario