Everything from:privacidad

¿Qué son los datos sintéticos?

Los datos sintéticos (en inglés, «Synthetic Data«) son un método para, a partir de un conjunto de datos que queremos proteger pero que necesitamos compartir con terceros, generar un nuevo conjunto de datos que conserva las características informacionales del conjunto origen pero que no permite recomponer los datos originales a partir de los creados artificialmente.

Los datos sintéticos suponen una evolución de los métodos más comunes para compartir datos con terceros, cada uno de los cuales tiene sus desventajas particulares:

  • La anonimización y pseudonimización, que consisten en eliminar o enmascarar las partes más sensibles de un conjunto de datos (como mínimo, los datos personales identificables). Hoy en día, está comúnmente aceptado que no son prácticas robustas para compartir datos, ya que es relativamente sencillo inferir los datos eliminados, fundamentalmente mediante el cruce con otros conjuntos de datos.
  • La agregación de datos: en lugar de compartir los datos detallados, se crean datos «resumidos». Por ejemplo, un negocio retail que necesite compartir sus datos de ventas puede compartir las ventas agregadas por día y categoría de producto, en lugar de compartir un listado detallado de las compras de sus clientes. Si bien este enfoque puede ser válido para algunos usos concretos, no lo es para muchos otros, porque a medida que aumentamos la robustez de los datos compartidos mediante un mayor nivel de agregación, se reduce también su valor informacional (en el ejemplo anterior, perderíamos la posibilidad de analizar el comportamiento de nuestros distintos segmentos de cliente).

Existen otros mecanismos, más avanzados, que aseguran que las actividades de compartición de datos mantienen la privacidad de los usuarios a los que hacen referencia esos datos. Por ejemplo, ya he hablado por aquí de la privacidad diferencial.

Sigue leyendo el artículo…

El martes pasado, asistí en Campus Madrid de Google for Startups a la presentación del Observatorio del Impacto Social y Ético de la Inteligencia Artificial (OdiseIA).

Durante la mesa de debate que se organizó tras las conferencias iniciales, me chocó bastante una idea que se repitió en al menos un par de ocasiones: que los usuarios renunciamos con mucha facilidad a nuestra privacidad a cambio de comodidad, a cambio de que esas aplicaciones y servicios nos hagan la vida más fácil, todo esto propiciado, además, por la pasividad y la falta de cultura.

Captura de pantalla de Cinco Días
La idea de que regalamos nuestros datos a cambio de comodidad y por pasividad ha sido recogida por la mayoría de los medios que cubrieron el acto, como en este ejemplo de Cinco Días

A simple vista, es una idea fácil de comprar. Sin embargo, me pregunto si verdaderamente es así.

¿Damos voluntariamente nuestros datos personales y abrimos muchos otros rincones de nuestra privacidad solo a cambio de comodidad? ¿El problema es nuestra pasividad? ¿O nuestra falta de cultura sobre privacidad?

¿O acaso los grandes recopiladores de información invierten ingentes cantidades de esfuerzo y de dinero en lograr que les demos nuestros datos?

¿Damos nuestros datos por pasividad o existe por parte de terceros una voluntad activa e incesante para lograr que bajemos la guardia?

¿Falta tanta cultura sobre privacidad o sobra tanto esfuerzo para hacer opaco lo que ocurre con nuestros datos una vez que le damos al botoncito de «acepto las cookies»?

Es demasiado inocente pensar que es libre e informado (o, peor aún, que es fruto exclusivo de la ignorancia y la pasividad) el nivel de renuncia a nuestra privacidad en la que incurrimos, por ejemplo, cuando descargamos una app y aceptamos sus términos y condiciones y le damos permisos sobre nuestro dispositivo.

Para empezar, porque los desarrolladores de esa app han dedicado mucho tiempo, esfuerzo y dinero en llegar a ti, en estar por delante de la competencia y en seducirte. Han aplicado técnicas y métodos que los profesionales del marketing y de los datos llevamos décadas mejorando y afinando. Cuentan con software, con datos, con expertos, para lograr que tengas la sensación de que descargarte esa app es lo que debes hacer ahora en tu vida.

Y una vez que tus datos son generados, recopilados, transmitidos, almacenados, agregados y explotados, pierdes por completo el control sobre ellos. Y esto, una vez más, no es mero fruto de la casualidad: es producto de un esfuerzo dirigido por cada vez más actores para lograr que esa opacidad siga estando acompañada de impunidad.

Si cualquiera de nosotros tuviéramos el presupuesto en abogados y lobbies de las grandes redes sociales, seguro que tendríamos nuestros datos mejor protegidos.

No es cuestión de pasividad, es cuestión de asimetría.

Un paper publicado por una investigadora de la universidad de Varsovia y otro de Stanford (ficha en Arxiv y enlace al PDF) estudia la correlación entre el estado de conservación de tu casa y tu riesgo, desde la perspectiva de una aseguradora de automóvil.

La principal conclusión del estudio es que, efectivamente, los datos relacionados con el estado de conservación de la vivienda mejoran la capacidad predictiva del modelo.

Sigue leyendo el artículo…