I + D    internet

Un sistema español detecta reseñas falsas en internet gracias a la inteligencia artificial

Investigadores de la Politécnica de Madrid logran una precisión del 80% para descubrir a los usuarios ‘fake’ de la mano de la combinación de inteligencia artificial, lenguaje natural y aprendizaje automático

07 OCT. 2019
4 minutos

Hoy en día un gran número de usuarios consulta internet para decidir qué productos consumir, dónde irse de vacaciones, y hasta dónde se pueden encontrar los productos con la mejor relación calidad-precio. Pero, ¿cómo podemos saber si estas reseñas han sido redacatadas por usuarios verdaderos? Un equipo de investigadores del Grupo de Sistemas Inteligentes de la Universidad Politécnica de Madrid (UPM) ha desarrollado un sistema, con técnicas de inteligencia artificial, procesamiento de lenguaje natural y aprendizaje automático, que es capaz de detectar de manera automática 'revisores' falsos (fake reviewers) que muestran opiniones en internet.

En la actualidad, existe un fenómeno creciente en estas plataformas conocido como fake reviews (reseñas falsas). Se trata, básicamente, de empresas que se anuncian en estas plataformas que contratan usuarios falsos que escriben reseñas que normalmente resultan beneficiosas para la empresa en cuestión. Además, también existe el fenómeno contrario, en el que las reseñas resultan perjudiciales para empresas competidoras.

Ante esta tendencia perniciosa, este sistema de la UPM, que ha sido probado con datos reales en la plataforma Yelp, que actualmente alberga más de 180 millones de reseñas, ha conseguido una precisión de más del 80%. Para ello, estudia los casos existentes de reseñas falsas, detecta qué características de los mismos resultan relevantes para el problema que se estudia y cuáles se pueden ignorar. 

Así, los investigadores se dieron cuenta de que los individuos que redactan estas reseñas falsas no pueden ser detectados por el texto que generan. Para confirmar esta observación emplearon tecnologías de última generación en el campo del procesado del lenguaje natural basados en aprendizaje profundo, como los word embeddings, que son capaces de representar palabras mediante vectores numéricos. Estas representaciones no pueden ser interpretadas directamente por humanos, pero sistemas especializados pueden extraer una gran cantidad de información con esta herramienta.

Dado que el texto de las reseñas no puede ser usado para detectar cuáles son falsas, los investigadores recurrieron a un campo distinto de investigación para resolver el problema: la ciencia de redes. Así, extrajeron distintos tipos de información de los usuarios de la plataforma, como datos acerca de la actividad de la cuenta, las interacciones con otros usuarios de esa misma plataforma y la actividad de escritura de reseñas. Uniendo toda esta información el sistema de aprendizaje ha sido capaz de detectar a los usuarios falsos con un 82% de precisión.

En opinión del investigador Óscar Araque, “este tipo de sistemas son de gran interés para plataformas de reseñas como Yelp o Google Maps, pero también pueden ser usadas por empresas anunciantes para detectar si empresas competidoras están empleando reseñas falsas”.