Funcionamiento de la indexación en buscadores


Antes de empezar el SEO lo primero que deberíamos hacer es asegurarnos de que Google o el buscador que sea está leyendo bien nuestra página Web. 

¿Cómo funciona esto de leer la página Web o qué quiere decir esto de indexar una página Web?

Hace unos 20 años los buscadores eran bases de datos creadas por humanos,
de hecho eran directorios en los que tú tenías que entrar y darte de alta, dabas
de alta tu url (la dirección de tu sitio Web).
Dabas de alta los Key words por los que querías que te encontrasen: las palabras clave, el título de tu sitio Web y una breve descripción.
Cuando alguien entraba en uno de estos directorios, hacia una búsqueda y en
función de la palabra clave que buscase se mostraban unos resultados u otros,
según si encontraba esa palabra clave en uno de los campos, la url, Keyword, title o description.
Pero todo esto cambió en el año 98 cuando nació Alta Vista. Alta Vista fue el
primer buscador que utilizó una tecnología completamente diferente. Empezó a utilizar la tecnología de indexación automática de páginas.

¿Cómo funciona la tecnología de indexación automática de páginas?

Lo primero que hicieron los técnicos de Alta Vista fue crear un agente robot o una araña, la llamamos araña porque en inglés lo llaman spider, porque Web quiere decir tela de araña, entonces los programas que corren solos por la Web los llaman spiders y cuando lo traducimos al castellano lo llamamos araña. En realidad el nombre técnico es agente robot o robot agent.

Agente, araña, robot y spider es exactamente lo mismo: 
Un pequeño programa que corre sólo por Internet y va leyendo todo lo que encuentra. Cuando entra en un sitio Web lee el contenido y lo envía a la base de datos, vuelve aquí sigue leyendo y encuentra un enlace, pasa a través del enlace y sigue leyendo, vuelve a leer el contenido, base de datos, enlace, pasa, entra, sigue leyendo y lo lleva a la base de datos; de manera que desde el año 98 no hace falta ir a los buscadores y darse de alta, sino que ellos te encuentran, en principio.
El problema es que pueden tardar un tiempo en encontrarte por eso existe la indexación express, cómo puedes estar indexado en 48 horas. 
Pero sin hacer nada los buscadores deberían, gracias a sus agentes robos, encontrar nuestro contenido y llevarlo a su base de datos. 
Lo que vamos a ver ahora es si estamos en esa base de datos y cuántas páginas de nuestro Web, de nuestra Web, han sido ya indexadas.

¿Por qué deberíamos comprobar si estamos indexados o no?

  1. Pues porque por desgracia las arañas no pueden ver según qué tipo de programación; no pueden ver por ejemplo el JavaScript, si nuestro sitio Web lo ha programado una empresa o un programador acostumbrado a programar programas de escritorio es posible que haya utilizado JavaScript para hacer los enlaces. Si este es el caso, las arañas no los verán, entonces entrarán en nuestro sitio Web, leerán la página de inicio pero no van a ver ninguno de los enlaces que llevan hacia el interior. Así que hay que evitar JavaScript al menos de la parte de enlaces. 
  2. Tampoco ven las pop up porque para hacer una pop up, una ventanita que se abre sin el navegador de arriba, hay que hacerlo en JavaScript, entonces muchas veces programamos sitios Web en los que vemos todas un listado de productos, por ejemplo, y que cuando clicas un producto, se abre una ventanita con la foto del producto y la descripción del producto pues eso, no va a ser visto por Google y por lo tanto la descripción de nuestros productos no se va a encontrar en este sitio Web. 
  3. El Flash, por suerte ya casi nadie programa sitios Web en Flash, no se indexa bien en los buscadores. Google es capaz de leer la página de inicio y algo de contenido, pero no va a ver todo el árbol de contenidos con lo cual todo el directorio o sea un catálogo de productos o información sobre quiénes somos, qué hacemos etcétera, eso no lo va a ver; hay que evitar los sitios Web en flash. En la actualidad se utiliza html5 y no hay ningún problema de indexación. 
  4. Algunos botones no funcionan, sobre todo cuando tenemos páginas Web con mucho contenido y tenemos botón en un listado, botón de página 1, página 2 página 3, “ver más”; ese “ver más” algunas veces no se indexa ¿porqué? Porque está escrito en JavaScript de nuevo o sea que vigilad con JavaScript. 
  5. Detrás de un login y password tampoco podemos hacer pasar a una araña, porque el sitio Web le pregunta el login y ella no sabe que poner y se va. O sea que muchas veces la gente programa extranets, o sea como una intranet externa, pero sin que sea vea el resto, sin que se vean los productos.
Entonces las arañas tampoco van a ver esos productos y por lo tanto esos productos no van a estar indexados en Google, por eso es importante que vigilemos si algo se indexa o no.

¿Cómo podemos saber si nuestro sitio Web está indexado y cuántas páginas tiene indexadas y cuáles son?

Vamos a verlo ahora mismo nos vamos a Google y buscaremos lo siguiente: 
Primero, para saber si nuestra universidad está indexada teclearíamos:
site:uvic.cat  

Nota: Es muy importante que no incluyamos espacios entre los dos puntos y el nombre de la universidad y tampoco las www. 
Clicamos y nos dice que tenemos 255.000 resultados aproximadamente y nos sale un anuncio de Google webmasters, si sale este anuncio es que lo hemos hecho bien pues Google cree que eres un webmaster y piensa: “vamos a ver si se registra en lo que se llama Google search console”, que es como se llamaba antes Google webmasters.
Vamos a interpretar esto, si hemos buscado: site:UVIC.cat
Saldrán 250.000 resultados y nos muestra los resultados.
Estas son las páginas de la Universidad de Vic que Google tiene indexadas, y si quiero ver la fecha de la última vez que una araña la vio:
  1. Despliego el “triangulito”. 
  2. Clico en caché y aquí me muestra la fecha del último día en el que entró la araña.
En este caso la home de la Universidad de Vic fue indexada el 28 de enero de 2016. Todo perfecto, no hay ningún problema.

Algunas búsquedas más: 

Mi sitio Web 
Escribo site:montsepenarroya.com (sin las www, sin espacio) y me sale aquí los resultados, dice: 2.180 páginas. Son muchas menos que la universidad pero claro, estás se han creado a mano o sea que cuesta crear tantas páginas pues son muchos años de ir creando contenidos.
SoloStocks
SoloStocks es una de las páginas Web que yo creé en el año 98, un marketplace entre empresas, el mayor de España, y es un sitio Web muy grande. Fíjate quetiene 674.000 resultados en Google. Quiere decir que ‘la araña’ de Google ha navegado por 674.000 páginas de este sitio Web. Eso quiere decir, también, que cuando yo busque “oferta de mesas de oficina” seguramente encontraría aquí esa oferta.
Para estar segura de si algo está indexado o no, lo que debería hacer es entrar, por ejemplo, en una de las fichas entro en SoloStocks, clicaria por ejemplo en estas sillas, copiaría la url Control+C, me vuelvo a Google y miro si existe en Google está url.
Sí existe, la encontraría aquí y quiere decir que está indexada, sí quiero hacerlo más sencillo puedo decirle a Google que lo busque dentro del site.

Facebook
Entro en Google y tecleo “site:facebook.com” y veo que tienen 2.650 millones de resultados indexados, imagina la capacidad de Google para indexar, si sólo de esta Web ya tiene 2.650 millones de resultados.
Nota: te enseño la de Facebook por dos cosas:
La primera para que tengas claro que todo lo que pasa en Facebook acaba indexado en Google, excepto si el usuario tiene un nivel de seguridad muy elevado, pero sino acabará indexado. Para poder comprobar, por ejemplo, en cuantas páginas de Facebook se habla de nosotros, lo haríamos así: 
  • Escribimos en Google “site:facebook.com” y escribimos a continuación por ejemplo “Montse Peñarroya”, cerramos las comillas entramos, y, me dice que en 253 páginas de Facebook se habla de Montse Peñarroya, tendría que comprobar cuáles son.
Esto puede sernos muy útil para gestionar lo que es la reputación de alguien en Internet, pero también a nivel de SEO es importante porque vamos a ver cuando tratemos el algoritmo que una de las cosas que Google tiene en cuenta una de las variables es en cuantas páginas de nuestro sitio Web sale una frase clave así que deberemos comprobar que las frases por las que deseamos salir en primeras posiciones las tengamos en el máximo número de páginas de nuestro sitio Web, pero ya lo veremos un poco más adelante en los vídeos dedicados al algoritmo.

Comentarios