El algoritmo de Google

La historia de Google 

Muy brevemente para que entiendas bien las diferentes partes del algoritmo. 

Toda esta aventura empezó en el año 1996 cuando Larry Page y Sergey Brin estaban haciendo su Doctorado en Stanford. En ese momento, los dos preparaban el Doctorado e iban revisando documentos de la Universidad. Esos documentos ya estaban indexados pero estaban indexados tal como se escaneaban los documentos en ese momento, o sea en la base de datos de Stanford. Los documentos digitalizados estaban ordenados por título, por palabras clave y por abstract

En la Universidad se llama abstract a un resumen, lo que ahora diríamos que es la description, la descripción de lo que sería un documento. Pues bien, cuando ellos buscaban documentos para su doctorado tenían que entrar en esa base de datos y seleccionar los documentos según las palabras clave, la descripción o el título que había puesto su autor. 

Entonces, fue hacia el año 97-98 cuando Altavista salió al mercado y Larry Page y Sergey Brin conocieron la tecnología de las arañas, que ya la hemos explicado, la de envío un agente robot a navegar por Internet y va leyendo todo el contenido y lo va trayendo a mi base de datos. Entonces, ellos pensaron que podrían hacer una araña parecida a la de Altavista pero que recorriese todos los documentos de la Universidad de Stanford y los indexará no por título, palabras clave y abstract sino por contenido o sea que leyese el contenido y que cuando ellos hicieran una búsqueda, esa búsqueda, se centrase en el contenido del sitio Web. Y así lo hicieron, programaron su primera araña, la lanzaron por la por la biblioteca de la Universidad de Stanford e indexaron todos los artículos y todos los documentos de la Universidad con esta araña. Los contenidos por primera vez, eran accesibles a todos los alumnos que hacían consultas. 

Sin embargo a Larry Page no le acaba de gustar como ordenaba los resultados, porque los resultados entonces se ordenaban como los ordenada Altavista por densidad, es decir si buscábamos una palabra en concreto lo que hacía Altavista, y lo que hacía su primer algoritmo de ordenación, era buscar dentro de los documentos, mirar qué documentos tenían esa palabra, luego contar cuántas veces salía la palabra y dividirlo por el total de palabras del documento. 

Así que los documentos salían ordenados según la cantidad de veces que salía la palabra, dividido por el total de palabras, por lo que llamamos densidad y esto a Larry Page no le gustaba. ¿Y porque no le gustaba? Pues porque en la Universidad los documentos tienen más o menos importancia según si sale o no sale en las bibliografías de otros trabajos. Es decir si tú escribes un paper en la Universidad, un artículo, por ejemplo y nadie te cita en la bibliografía de sus trabajos es que tu trabajo es irrelevante. Por eso Larry Page lo que quería era que los documentos además de estar ordenados por contenido estuvieran ordenados por relevancia, por importancia respecto a todo el ecosistema de artículos creados

Empezaron así, probaron en la universidad y les gustó mucho el resultado, tuvo muy buena aceptación entre los alumnos y lo publicaron en Internet. Enviaron sus arañas a recorrer todo Internet, a escanear todas las páginas Web. Por lo que el algoritmo originario con el que salió Google es un algoritmo cuya casi mitad del algoritmo tiene en cuenta la densidad de las palabras, o sea es el antiguo algoritmo de Altavista contar palabras de una página, no de un sitio Web, de una página en concreto del sitio dividido por el total de palabras de ese sitio, y la otra mitad, es cuán importante es ese documento en función de en cuántas bibliografías aparece. 


El Page Rank 

Lo anterior, pasado a Internet, las bibliografías, se transformaron en lo que llamamos el Page Rank, que se llama Page rank en honor a Larry Page. 

Esto suele ser una pregunta de examen o una pregunta de de entrevista de trabajo le preguntas al candidato describe con tus propias palabras el Page rank. El Page rank se llama Page rank porque Larry se llama de apellido Page. 

El Page rank podría decirse que es el algoritmo que asigna un valor numérico a la importancia de un sitio Web en función de cuántos enlaces van a ese sitio Web, con muchos matices, pero los matices ya los veremos en el vídeo dedicado específicamente al Page rank y también dedicaremos otro vídeo a los nuevos cambios que hay relacionados con el Page rank. 

Espero que con esta breve explicación tengas un poco más claro cómo funciona el algoritmo porque aunque ahora tiene más de doscientas variables en el fondo sigue siendo: Entender el contenido de un sitio Web y entender si ese sitio Web es importante o no es importante o la relevancia de ese sitio Web respecto al resto de sitios webs de Internet.

CAMBIOS EN EL ALGORITMO DE GOOGLE


Hacia una internet más segura.

Google desea que internet sea más rápida, móvil y segura. Es por estos tres motivos que su algoritmo se ido modificando a lo largo de estos últimos años. Primero fue incorporando la velocidad de descarga de un sitio web al algoritmo, después fue penalizando los sitios web que no ofrecen una versión apta para móvil (abril 2015), desde inicios del 2017 hay indicios de que ha empezado a primar los sitios web que son más seguros y se muestran siguiendo el protocolo https en lugar del http.

La diferencia entre un sitio web publicado siguiendo el protocolo http y el https es que en este último la información viaja entre la pantalla del usuario y el servidor en el que está alojada la web de forma encriptada. Esto asegura que si alguien es capaz de interceptar el flujo de datos, no podrá interpretarlos por qué no podrá entenderlos.
Interceptar datos es algo más común de lo que suponemos. En cualquier red, pública o privada, es posible incluir pequeños programas que graban toda la información que pasa a través de esa red y obtener así datos de tarjetas VISA, logins y passwords, etc.
Así que utilizar el https en lugar del http en una página web se está convirtiendo en una necesidad, no sólo para la protección de tus usuarios, si no porqué mejora el SEO del sitio web.
Veamos cómo deberíamos realizar la migración de http a https para que todo vaya rápido y sin incidencias:
Para empezar, necesitamos activar el certificado SSL que te ofrezca el hosting del sitio web. Para ello, entra en el panel de control del alojamiento de la web que desees hacer más segura y busca el apartado de “Seguridad”. Allí deberías encontrar un sub apartado llamado “Certificados SSL” junto al icono de un candado. Entra en ese apartado y activa el certificado. Suele ser un servicio gratuito y se hace en un solo clic. Si tu hosting no ofrece este servicio, puedes encontrarlo en sitios como Let’s Encrypt … pero entonces las cosas no serán tan fáciles.
Ahora necesitas indicarle a tu web que utilice el certificado que acabas de activar. Si la web está creada con WordPress esto es realmente sencillo. Te descargas el plugin gratuito “Really Simple SSL”, lo instalas y lo activas dándole al botón “activar”. Ya está, todo OK. Si tu web está creada con otro gestor de contenidos, busca el plugin equivalente. Si tu web está hecha a mano, deberás cambiar el fichero .htaccess.
El plugin también se encarga de que cuando alguien entre a una antigua URL indexada sin el https o en algún link antiguo, vaya a la página correcta en lugar de una con error 404.
Llegados a este punto, la web ya está funcionando con https, así que puedes entrar en ella y comprobarlo. Por desgracia ahora hay que cambiar más cosas: tu Google Analytics y tu Google Search Console (el antiguo Google Webmasters). Vamos a ello.
¿Cómo indicarle a Google Analytics que tu web utiliza ahora https? Entras en tu cuenta, vas a la zona de administrador, entras en configuración de la propiedad y una vez allí, donde pone “URL predeterminada” cambias http por https. Guardas, y ya está.
¿Cómo indicarle a Google Search Console que ahora utilizas https? Hay que dar de alta una nueva propiedad… no puedes hacer nada con la antigua.
Un último consejo que puede ayudarte: rehaz el Google Sitemap de tu web (en el plugin “SEO by Yoast” si utilizas WordPress) y dalo de alta de nuevo en Google Search Console. Así Google también se entera rápidamente que ahora utilizas https.
Si tu robot.txt contiene instrucciones sobre dónde está su sitemap, edita esta información e indica que tu sitemap ahora está en https.
Bien, con esto deberías tener la web a punto, con todo correcto y bien segura. 

Comentarios