TIC    Privacidad

Un algoritmo identifica al 99,9% de los estadounidenses a partir de bases públicas de datos anónimos

Investigadores del Imperial College de Londres y de la Universidad Católica de Lovaina publican su descubrimiento para alerta de esta brecha de privacidad

24 JUL. 2019
5 minutos
El algoritmo se ha probado con bases de datos públicas en EEUU. / NASA /Unsplash

Basta con conocer el sexo, el código postal y el estado civil de una persona para identificarla sin apenas margen de error. Eso si, para lograrlo tienes que contar con la ayuda de la inteligencia artificial. Lo han conseguido un grupo de informáticos del Imperial College de Londres y de la Universidad Católica de Lovaina (Bélgica), que ha descubierto una auténtica brecha de seguridad para la protección de los datos de millones de personas en el mundo. Y su forma de advertirlo ha sido publicando su estudio completo en la revista Nature Communications, en el que describen no sólo su trabajo, pruebas, ejemplos, sino, incluso, su código fuente “re-identificador”.

Para sorpresa de todo el mundo científico, aseguran, que con esa compleja fórmula han sido capaces de identificar al 99,98% de los estadounidenses empleando bases públicas de datos anónimos. Apenas han necesitado datos sesgados que si recogen esos bancos de datos –como el sexo, el lugar de residencia o el estado civil– para conocer de que persona eran unos datos médicos o quien había solicitado un préstamo.

Han encontrado una gran brecha en la protección de la privacidad de los datos a partir de fragmentos de lo que, supuestamente, eran datos anónimos. Su trabajo para re-identificar a los propietarios de los datos ha consistido, simplificándolo mucho, en cruzar la información que aportan 15 atributos demográficos, aparentemente, inocuos.

Normalmente cuando los investigadores descubren una brecha de seguridad advierten al proveedor y a la agencia gubernamental encargada. Pero en este caso el director de la investigación, Yves-Alexandre de Montjoye, del Imperial College, ha optado por hacer público incluso su algoritmo porque son cientos de miles de datos los que circulan por la red en todo el mundo y pueden estar en riesgo.

Los datos, ese gran tesoro que proteger

En la última década, la capacidad de recopilar y almacenar datos personales se ha disparado. Dos tercios de la población del mundo tiene acceso a internet, aseguradoras, centros de salud, bancos, hacienda, el servicio de empleo, compañías telefónicas o incluso los servicios de información a los que estamos suscritos manejan cantidad de datos que sufren un proceso de “anonimato”, es decir se separan de la identidad individual.

Con ellos se pueden hacer importantes estudios que permiten grandes avances en sanidad, en sociología o psicología y por supuesto en el mundo económico. Son datos con los que se trabaja para conseguir un bien común. Pero el peligro está en que esos datos lleguen a las manos equivocadas.

En los últimos años se han producido diversos escándalos relacionados con la “fuga” o el robo de datos de algunas empresas. En 2013 Yahoo! reconoció que una fuga de información había afectado a la cuenta de 30.000 usuarios. En 2016 Uber denunció el robo de datos de 57 millones de personas (nombre, correo electrónico, número de teléfono) y chóferes (nombre, número de carné). Y tal vez el caso más conocido, el de Cambridge Analitica, la última fuga de datos en Facebook que afectó a 87 millones de usuarios de todo el mundo y por la que Mark Zuckerberg tuvo que pagar la multa más alta impuesta hasta el momento: 5.000 millones de dólares