Descubriendo la verdad





El 29 de octubre de 2012, fecha en que el huracán Sandy azotó la ciudad de Nueva York, un tuitero con muy malas pulgas publicó lo siguiente: "ÚLTIMA HORA: Confirmada la inundación de la Bolsa de Nueva York. El parqué se encuentra sumergido bajo casi un metro de agua", un mensaje que se propagó rápidamente a los informativos convencionales.
Solo que no era verdad.

Recientemente, esta clase de bromas han recibido la denominación de fake news. A veces, a los periodistas, las autoridades y los propios usuarios de las redes sociales les cuesta distinguir las noticias verdaderas de este raudal de desinformación. Las redes sociales se están convirtiendo en la principal fuente de información para muchas personas, así que encontrar la manera de juzgar si algo es verdadero o falso es cada vez más importante.

Se ha desarrollado un marco de referencia, publicado en PLOS One, que evalúa la probabilidad de que un hecho del que se informa en un tuit corresponda al relato de un testigo presencial mediante la ponderación de los indicios de si el autor del mensaje se encontraba o no en el lugar de los hechos.

Evaluar la fiabilidad de un tuit

Un principio establecido hace tiempo en los procedimientos penales es que los relatos de los testigos presenciales son más fiables que lo que se cuenta de oídas. Por lo tanto, para juzgar si un tuit es digno de confianza tenemos que decidir si la información que contiene es de primera mano.
El esquema, desarrollado a partir de un trabajo anterior de Marie Truelove, analiza los detalles de un mensaje para establecer si se trata del relato de un testigo presencial. El punto de partida más obvio es la georreferencia de los metadatos de algunos tuits. Lo que ocurre es que solamente una pequeña parte de los usuarios activa esta opción. Para encontrar otras fuentes de pruebas se tuvo que recurrir al contenido del propio tuit, es decir, al texto y a las fotografías.
Primero se buscan indicios de que el autor estuvo presente en el suceso sobre el cual escribió. Luego se puso a prueba el resultado buscando indicios de que, en realidad, no hubiera estado allí. En el texto, declaraciones como determinadas observaciones sobre el hecho (por ejemplo, el humo en el cielo en el caso de un incendio), las imágenes adjuntas (como una fotografía en directo de un partido de fútbol), y la existencia de geoetiquetado en los metadatos corroboran que un usuario es un testigo digno de crédito.
Además, se identifican aquellas pruebas en contra que indican que un tuitero no ha sido testigo presencial, por ejemplo, si se sitúa a sí mismo en otro sitio o publica una imagen televisiva del suceso, y se utilizan para verificar las anteriores. Si se descubre que ambas se contradicen, se puede proceder a investigar la naturaleza del mensaje.
A continuación, estos indicios, que se pueden extraer utilizando el aprendizaje automático, se evalúan con el fin de asignar al tuit una medida de credibilidad que va desde baja hasta alta.

Las dificultades

El sistema tiene que vencer dificultades importantes, entre ellas decidir si el tuit se ha generado a partir de la experiencia directa del suceso o mientras este se veía en televisión.
Las imágenes adjuntas pueden ser copias anónimas procedentes de otras fuentes o reproducir sucesos del pasado que tuvieron lugar en el mismo sitio. Los tuiteros pueden publicar lo deseosos que están de asistir a un acontecimiento que tendrá lugar después, pero al final no ir, o, por el contrario, posponer la publicación de sus relatos presenciales hasta que están de vuelta a casa una vez que el acontecimiento ha concluido.
El comportamiento de los testigos presenciales a la hora de publicar también puede variar dependiendo del hecho de que se trate. Por ejemplo, los tuits en los que se informa por anticipado de la asistencia a determinado acontecimiento no se pueden detectar a menos que este esté programado. Asimismo, los que informan de que un suceso no ha ocurrido solamente aparecerán si este se ha predicho; por ejemplo, si no se producen las inundaciones y los apagones asociados a un ciclón anunciados con anterioridad.
Para vencer estas dificultades, se investiga fundamentalmente las distintas fuentes de indicios contenidas en los tuits y aplicando una serie de procesos para eliminar los menajes que no permiten obtener indicios de que quien publica está presente en el lugar del os hechos, como pasa con los retuits.
Después utilizando técnicas supervisadas de aprendizaje automático para aplicar modelos de clasificación dirigidos a obtener pruebas de los tuits restantes que aportan datos que demuestran que, quien mandó el tuit, estuvo presente en el sitio en cuestión.
Cuando se descubren múltiples indicios para un mismo tuitero, se ponen a prueba por combinación, demostrada aplicando la teoría de la evidencia de Dempster Shafer en el estudio publicado en PLOS One. Esta teoría permite combinar o fundir diferentes tipos de pistas que respaldan distintos niveles de certeza.

Verificar la credibilidad

Han descubierto que incluir indicios procedentes del texto y de las fotografías adjuntas permite descubrir más autores de tuits presentes en determinado suceso que cuando se los identifica únicamente a partir de las georreferencias.
Además, el número de tuits que se pueden analizar en busca de pruebas corroborativas o contradictorias se multiplica cuando se identifican pruebas a favor y en contra en el historial de mensajes publicados.
Si se hubiese utilizado este sistema se habría estimado que la medida de credibilidad del tuit sobre la inundación de la Bolsa de Nueva York era baja, ya que faltaban indicios que confirmasen que su autor estaba presente en el sitio, no había ninguna imagen que proporcionase pruebas adicionales, y los tuits anteriores y posteriores no guardaban suficiente relación con el hecho.
Si las agencias de noticias en particular tuviesen acceso a un marco de referencia podrían valorar los tuits de pretendidos testigos presenciales, y así  podríamos confiar un poco más en los informativos.

Comentarios