Según el MIT, las ‘fake news’ usan patrones de lenguaje determinados que resultan distintos a los que empleamos en las historias reales.
La lucha contra las noticias falsas se ha convertido en una de las grandes preocupaciones de las democracias occidentales, especialmente con el auge de los populismos, la victoria de Donald Trump o el movimiento antivacunas. Una batalla contra la mentira y la desinformación que, según el MIT, podría tener algún atisbo de optimismo.
Y es que, de acuerdo a un nuevo trabajo de esta prestigiosa universidad, las ‘fake news’ usan patrones de lenguaje determinados que resultan distintos a los que empleamos en las historias reales. Diferencias “muy sutiles pero consistentes” que podrían utilizarse para desarrollar mejores algoritmos que detecten la veracidad de las informaciones que leemos, no solo comparando la noticia en cuestión con otras fuentes.
“En nuestro caso, queríamos entender cuál fue el proceso de decisión del clasificador basado solo en el lenguaje, ya que esto puede proporcionar información sobre el lenguaje de las noticias falsas”, explica el coautor Xavier Boix, un postdoctorado en el Centro de Cerebros, Mentes y Máquinas (CBMM) del Departamento de Cerebro y Ciencias cognitivas (BCS) del MIT.
“Un problema clave con el aprendizaje automático y la inteligencia artificial es que obtienes una respuesta y no sabes por qué obtuviste esa respuesta”, añade la estudiante graduada y autora principal Nicole O’Brien. “Mostrar estos trabajos internos da un primer paso hacia la comprensión de la fiabilidad de los detectores de noticias falsas de aprendizaje profundo“.
¿Qué patrones repiten las ‘fake news’?
El modelo ha identificado algunos conjuntos de palabras que tienden a aparecer con más frecuencia en noticias reales o falsas, algunas tal vez obvias, otras mucho menos.
En ese sentido, los hallazgos apuntan a las exageraciones y los superlativos en las ‘fake news’, frente a las noticias reales, que se inclinan más hacia la elección de palabras conservadoras.
¿Cómo funciona el modelo?
El modelo de los investigadores es una red neuronal convolucional que se entrena en un conjunto de datos de noticias falsas y noticias reales. Para el entrenamiento y las pruebas, los investigadores utilizaron un popular conjunto de datos de investigación de noticias falsas, llamado Kaggle, que contiene alrededor de 12.000 artículos de ejemplos de noticias falsas de 244 sitios web diferentes. También compilaron un conjunto de datos de muestras de noticias reales, utilizando más de 2.000 del New York Times y más de 9.000 de The Guardian.
En el entrenamiento, el modelo capturó el lenguaje de un artículo como “incrustaciones de palabras”, donde las palabras se representan como vectores; básicamente, matrices de números, con palabras de significados semánticos similares agrupados entre sí. Al hacerlo, captura trillizos de palabras como patrones que proporcionan algún contexto, como, por ejemplo, un comentario negativo sobre un partido político. Con cada nuevo artículo, el modelo escanea el texto en busca de patrones similares y los envía a través de una serie de capas. Una capa de salida final determina la probabilidad de cada patrón: real o falso.
A continuación, los investigadores entrenaron el modelo en todos los temas sin mencionar la palabra “Trump”, y probaron el modelo solo en muestras que se habían separado de los datos de entrenamiento y que contenían la palabra “Trump”. Y el resultado fue un acierto de más del 90% a la hora de detectar las noticias falsas de las que no conviene fiarse demasiado…
*Este artículo es una traducción interpretada del resumen realizado por Rob Matheson del trabajo del MIT sobre noticias falsas y patrones de lenguajes, cuyo original puede leerse aquí.
No hay comentarios:
Publicar un comentario