Tenía ganas de escribir un artículo sobre ChatGPT pero, a la vez, no me apetecía ponerme a teclear. ¿Cómo evitar la pereza? MUY FÁCIL: he charlado un rato con ChatGPT para que haga el trabajo tedioso por mí.
Lo que viene a continuación, por tanto, no lo he escrito yo, sino el propio ChatGPT en respuesta a mis preguntas. Al final, añado algunos comentarios.
¿Qué es ChatGPT?
ChatGPT es un modelo de lenguaje de inteligencia artificial desarrollado por OpenAI, que utiliza una arquitectura de red neuronal conocida como GPT (Transformador Generativo Preentrenado). El modelo está diseñado para generar respuestas a preguntas y comentarios en lenguaje natural, y se entrena utilizando una gran cantidad de datos textuales para poder entender y generar texto de manera efectiva.
En resumen, ChatGPT es una herramienta que permite interactuar con los usuarios a través de conversaciones naturales, proporcionando respuestas relevantes y útiles en tiempo real.
Los datos sintéticos (en inglés, «Synthetic Data«) son un método para, a partir de un conjunto de datos que queremos proteger pero que necesitamos compartir con terceros, generar un nuevo conjunto de datos que conserva las características informacionales del conjunto origen pero que no permite recomponer los datos originales a partir de los creados artificialmente.
Los datos sintéticos suponen una evolución de los métodos más comunes para compartir datos con terceros, cada uno de los cuales tiene sus desventajas particulares:
La anonimización y pseudonimización, que consisten en eliminar o enmascarar las partes más sensibles de un conjunto de datos (como mínimo, los datos personales identificables). Hoy en día, está comúnmente aceptado que no son prácticas robustas para compartir datos, ya que es relativamente sencillo inferir los datos eliminados, fundamentalmente mediante el cruce con otros conjuntos de datos.
La agregación de datos: en lugar de compartir los datos detallados, se crean datos «resumidos». Por ejemplo, un negocio retail que necesite compartir sus datos de ventas puede compartir las ventas agregadas por día y categoría de producto, en lugar de compartir un listado detallado de las compras de sus clientes. Si bien este enfoque puede ser válido para algunos usos concretos, no lo es para muchos otros, porque a medida que aumentamos la robustez de los datos compartidos mediante un mayor nivel de agregación, se reduce también su valor informacional (en el ejemplo anterior, perderíamos la posibilidad de analizar el comportamiento de nuestros distintos segmentos de cliente).
Existen otros mecanismos, más avanzados, que aseguran que las actividades de compartición de datos mantienen la privacidad de los usuarios a los que hacen referencia esos datos. Por ejemplo, ya he hablado por aquí de la privacidad diferencial.
El martes pasado, asistí en Campus Madrid de Google for
Startups a la presentación del Observatorio del Impacto Social y Ético de la
Inteligencia Artificial (OdiseIA).
Durante la mesa de debate que se organizó tras las conferencias iniciales, me chocó bastante una idea que se repitió en al menos un par de ocasiones: que los usuarios renunciamos con mucha facilidad a nuestra privacidad a cambio de comodidad, a cambio de que esas aplicaciones y servicios nos hagan la vida más fácil, todo esto propiciado, además, por la pasividad y la falta de cultura.
La idea de que regalamos nuestros datos a cambio de comodidad y por pasividad ha sido recogida por la mayoría de los medios que cubrieron el acto, como en este ejemplo de Cinco Días
A simple vista, es una idea fácil de comprar. Sin embargo,
me pregunto si verdaderamente es así.
¿Damos voluntariamente nuestros datos personales y abrimos
muchos otros rincones de nuestra privacidad solo a cambio de comodidad? ¿El
problema es nuestra pasividad? ¿O nuestra falta de cultura sobre privacidad?
¿O acaso los grandes recopiladores de información invierten ingentes cantidades de esfuerzo y de dinero en lograr que les demos nuestros datos?
¿Damos nuestros datos por pasividad o existe por parte de terceros una voluntad activa e incesante para lograr que bajemos la guardia?
¿Falta tanta cultura sobre privacidad o sobra tanto esfuerzo para hacer opaco lo que ocurre con nuestros datos una vez que le damos al botoncito de «acepto las cookies»?
Es demasiado inocente pensar que es libre e informado (o, peor aún, que es fruto exclusivo de la ignorancia y la pasividad) el nivel de renuncia a nuestra privacidad en la que incurrimos, por ejemplo, cuando descargamos una app y aceptamos sus términos y condiciones y le damos permisos sobre nuestro dispositivo.
Para empezar, porque los desarrolladores de esa app han dedicado mucho tiempo, esfuerzo y dinero en llegar a ti, en estar por delante de la competencia y en seducirte. Han aplicado técnicas y métodos que los profesionales del marketing y de los datos llevamos décadas mejorando y afinando. Cuentan con software, con datos, con expertos, para lograr que tengas la sensación de que descargarte esa app es lo que debes hacer ahora en tu vida.
Y una vez que tus datos son generados, recopilados, transmitidos, almacenados, agregados y explotados, pierdes por completo el control sobre ellos. Y esto, una vez más, no es mero fruto de la casualidad: es producto de un esfuerzo dirigido por cada vez más actores para lograr que esa opacidad siga estando acompañada de impunidad.
Si cualquiera de nosotros tuviéramos el presupuesto en abogados y lobbies de las grandes redes sociales, seguro que tendríamos nuestros datos mejor protegidos.
No es cuestión de pasividad, es cuestión de asimetría.
Los sistemas que cumplen con la definición de la privacidad diferencial se dividen en dos grandes grupos, los que aplican privacidad local y los que aplican privacidad global (o central).
Cada uno de estos enfoques cuenta con sus
ventajas y desventajas. Conocer esos matices es esencial para elegir el esquema
de nuestro sistema. Veamos sus características y diferencias.
Un paper publicado por una investigadora de la universidad de Varsovia y otro de Stanford (ficha en Arxiv y enlace al PDF) estudia la correlación entre el estado de conservación de tu casa y tu riesgo, desde la perspectiva de una aseguradora de automóvil.
La principal conclusión del estudio es que, efectivamente, los datos relacionados con el estado de conservación de la vivienda mejoran la capacidad predictiva del modelo.
La privacidad diferencial es un conjunto de técnicas que permiten que recopilemos y compartamos datos con la «garantía matemática» de que las personas que proporcionaron esos datos no se van a ver afectadas en modo alguno.
En el terreno del Customer Analytics, la privacidad diferencial nos permite entrenar modelos con datos de clientes con la tranquilidad de que el modelo no va a aprender ni a recordar detalles de ningún cliente específico.
Podemos prometer a cada cliente que sus datos concretos no serán revelados, incluso aunque se combinen con otros conjuntos de datos. Esa promesa no es un simple compromiso de marketing o legal, sino que se basa en los fundamentos matemáticos sobre los que se sustenta la privacidad diferencial.
Cómo funciona la privacidad diferencial
Para proteger los datos sensibles de cada sujeto, cuando se lance una consulta a un sistema que incorpore la privacidad diferencial, este modificará el resultado de la consulta añadiéndole nuevos datos (ruido) extraídos aleatoriamente de una distribución generada a partir de los datos originales.
Así, un conjunto de datos que incorpore este concepto al que preguntemos algo como «¿cuántos clientes que nos llamaron ayer tienen un saldo en cuenta superior a 100.000 euros?» no nos devolverá la cifra exacta y real, sino un número cercano a ella resultante de sumarle un valor (positivo o negativo).
En nuestro entorno empresarial y profesional, son pocas las personas que conocen la herramienta llamada acta de constitución de proyecto (en inglés “Project Charter”).
¿Qué es el acta de constitución del proyecto?
Si nos queremos poner formales, el acta de constitución es un documento que recoge la esencia del proyecto, los objetivos que se pretenden alcanzar con él, identifica a sus participantes y a otras personas interesadas y acota las principales restricciones a las que se enfrentará, incluyendo plazos, recursos, etc.
Lo que es más importante de todo esto es que el acta de constitución de proyecto es un documento que vincula al equipo de proyecto (y en concreto, al jefe del proyecto) con el principal patrocinador (sponsor) y con los interesados principales (key stakeholders). Todos ellos quedan comprometidos con un alcance, unos objetivos, unos medios y una visión del proyecto.
Fíjate en lo que acabo de decir: el acta de constitución es un compromiso. Es un contrato. Se espera, además, que se ponga por escrito y que se firme.
Sigo pensando en lo de Volkswagen y no deja de sorprenderme lo mucho que nos gusta hacer como el capitán Renault (no pun intended) de Casablanca.
No me refiero ya a que otros fabricantes de automóviles hagan lo mismo de lo que ahora se acusa a Volkswagen, que también, sino a cuántos engaños a clientes y administraciones llevan a cabo, a diario, empresas de todo tipo y de todos los tamaños. Y trabajamos en ellas «tan contentos» (o no), pero luego nos echamos las manos a la cabeza en cuanto pillan a otro.
No avanzaremos éticamente mientras no seamos capaces de señalar con el dedo lo cercano y familiar antes que lo lejano y sorprendente.