Everything from:Big Data

¿Qué son los datos sintéticos?

Los datos sintéticos (en inglés, «Synthetic Data«) son un método para, a partir de un conjunto de datos que queremos proteger pero que necesitamos compartir con terceros, generar un nuevo conjunto de datos que conserva las características informacionales del conjunto origen pero que no permite recomponer los datos originales a partir de los creados artificialmente.

Los datos sintéticos suponen una evolución de los métodos más comunes para compartir datos con terceros, cada uno de los cuales tiene sus desventajas particulares:

  • La anonimización y pseudonimización, que consisten en eliminar o enmascarar las partes más sensibles de un conjunto de datos (como mínimo, los datos personales identificables). Hoy en día, está comúnmente aceptado que no son prácticas robustas para compartir datos, ya que es relativamente sencillo inferir los datos eliminados, fundamentalmente mediante el cruce con otros conjuntos de datos.
  • La agregación de datos: en lugar de compartir los datos detallados, se crean datos «resumidos». Por ejemplo, un negocio retail que necesite compartir sus datos de ventas puede compartir las ventas agregadas por día y categoría de producto, en lugar de compartir un listado detallado de las compras de sus clientes. Si bien este enfoque puede ser válido para algunos usos concretos, no lo es para muchos otros, porque a medida que aumentamos la robustez de los datos compartidos mediante un mayor nivel de agregación, se reduce también su valor informacional (en el ejemplo anterior, perderíamos la posibilidad de analizar el comportamiento de nuestros distintos segmentos de cliente).

Existen otros mecanismos, más avanzados, que aseguran que las actividades de compartición de datos mantienen la privacidad de los usuarios a los que hacen referencia esos datos. Por ejemplo, ya he hablado por aquí de la privacidad diferencial.

Sigue leyendo el artículo…

Llamamos Citizen Data Scientists (Citizen DS) a aquellas personas cuya dedicación principal es ajena al área de analítica de datos pero que son capaces de llevar a cabo tareas de analítica avanzada con cierto nivel de sofisticación, como parte de su trabajo.

En cierto modo, los Citizen Data Scientists son como esos “power users” de Excel que puedes encontrar en cualquier área funcional, solo que ahora tienen a su disposición cantidades mucho mayores de datos.

Además, cuentan con herramientas que automatizan y simplifican tareas que, hasta hace bien poco, solo podían realizar los Data Scientists (DS) y los Data Engineers (DE).

Los Citizen Data Scientists son usuarios de negocio capaces de realizar tareas analíticas con cierto nivel de sofisticación.

Son uno de los frutos de la democratización de la ciencia de datos, tendencia imparable y ya muy asentada en algunas organizaciones.

Algo muy relevante para entender esta figura es que nadie se llama a sí mismo “Citizen Data Scientist”, igual que no existen tarjetas de visita con ese cargo. Siguen siendo quienes eran en sus departamentos, solo que el contexto de datos, la exigencia del negocio y el avance de la tecnología han avivado sus capacidades analíticas.

Sigue leyendo el artículo…

La privacidad diferencial es un conjunto de técnicas que permiten que recopilemos y compartamos datos con la «garantía matemática» de que las personas que proporcionaron esos datos no se van a ver afectadas en modo alguno.

En el terreno del Customer Analytics, la privacidad diferencial nos permite entrenar modelos con datos de clientes con la tranquilidad de que el modelo no va a aprender ni a recordar detalles de ningún cliente específico.

Podemos prometer a cada cliente que sus datos concretos no serán revelados, incluso aunque se combinen con otros conjuntos de datos. Esa promesa no es un simple compromiso de marketing o legal, sino que se basa en los fundamentos matemáticos sobre los que se sustenta la privacidad diferencial.

Cómo funciona la privacidad diferencial

Para proteger los datos sensibles de cada sujeto, cuando se lance una consulta a un sistema que incorpore la privacidad diferencial, este modificará el resultado de la consulta añadiéndole nuevos datos (ruido) extraídos aleatoriamente de una distribución generada a partir de los datos originales.

Así, un conjunto de datos que incorpore este concepto al que preguntemos algo como «¿cuántos clientes que nos llamaron ayer tienen un saldo en cuenta superior a 100.000 euros?» no nos devolverá la cifra exacta y real, sino un número cercano a ella resultante de sumarle un valor (positivo o negativo).

Sigue leyendo el artículo…

Estoy muy de acuerdo con la premisa principal de este artículo –> Por qué no debes ser un científico de datos generalista 

Ahora bien, me chirría que el autor se haya centrado únicamente en las funciones para crear esas descripciones de puestos, como si la especialización viniera (sólo) de las funciones desarrolladas.

Para mí, hay un factor igual (o más) importante que determina si hay encaje con el equipo/proyecto/empresa: la especialización de dominio.

Probablemente, en perfiles de corte más junior no sea tan relevante, ni en aquellos más pegados al dato, como el Data Engineer. Sin embargo, en cuanto subes el nivel de abstracción, el conocimiento del dominio resulta esencial para ponerle sentido al dato.

Así que, usando sus cinco categorías, las de «Data Analyst» y «Data Scientist» son las que tienen mayor dependencia del bagaje que tengas en esa área de conocimiento.

En Leads Origins, recibimos muchas candidaturas de personas de perfiles alejados de nuestro dominio (marketing y ventas) para trabajos que son, puramente, los de «Data Analyst» y «Data Scientist».

Sigue leyendo el artículo…

Hace ya unos cuantos años, me tocó vivir la irrupción a gran escala del agilismo en la industria del desarrollo de software en España. En poco tiempo, el agilismo pasó del desprecio y la sospecha al más puro mainstream. Tanto es así que, ahora mismo, ya hay un buen número de desarrolladores de software que no han conocido otra manera de llevar a cabo su trabajo.

Después de esa etapa, me acerqué profesionalmente al mundo de las startups. Aquí, conceptos como Lean Startup son imperantes. Aunque no están directamente relacionados, agilismo y Lean Startup comparten un mismo esquema mental, con conceptos subyacentes como:

  • no podemos saberlo/planificarlo/estimarlo todo de antemano
  • cuanto antes empecemos a generar productos reales, aunque parciales, antes podremos validar si son lo que el negocio necesita
  • si vamos a equivocarnos, mejor hacerlo lo antes posible, para poder corregir el rumbo mientras aún haya oportunidad

El agilismo no ha llegado a todos los ámbitos por igual

Con esas dos etapas a mis espaldas, uno corre el riesgo de pensar que ya todo el mundo tiene interiorizada esa forma de afrontar los proyectos… pero nada más lejos de la realidad.

Sigue leyendo el artículo…

En esto de la Inteligencia Artificial, vivimos un momento paradójico provocado por la confluencia de dos corrientes.

Meme sobre Machine Learning y estadística Tenemos, por un lado, a quienes creen que estas cosas del Machine Learning no son más que “estadística avanzada”. Este meme que ha pululado por las redes en los últimos meses es un ejemplo de esta corriente de pensamiento.

Por otra parte, están (estamos) los que cada vez queremos hablar menos de “Inteligencia Artificial”, porque cada uno entendemos cosas (muy) distintas cuando oímos este concepto, lo que lo hace peligroso. Tú dices “Inteligencia Artificial” queriendo decir Machine Learning y el de enfrente entiende “máquinas inteligentes que nos van a robar el trabajo como paso previo a esclavizarnos y aniquilarnos”. O, en el mejor de los casos, entiende “con esto haces dos clicks y ya está resuelto”, que viene a ser igual de estúpido.

Y es que, amigos, ni una cosa ni la otra.

Ni “la Inteligencia Artificial” va a cobrar conciencia de sí misma y provocar un holocausto nuclear, ni su forma actual (el aprendizaje automático o Machine Learning) es “poco más que estadística avanzada”.

No es una varita mágica, ni un arma nuclear

El término “Inteligencia Artificial” es desafortunado. Hunde sus raíces en un momento en el que la ciencia aspiraba a replicar nuestra inteligencia. La cultura popular abrazó el concepto, echó a volar la imaginación y logró fijarlo en nuestras retinas y mentes como un proceso imparable cuya culminación era sólo cuestión de (poco) tiempo.

Sigue leyendo el artículo…

En las últimas semanas, alrededor del tema de la conferencia que di en Argentina  sobre Inteligencia Artificial y Big Data, en varias ocasiones me han pedido recomendaciones sobre cómo incorporar la Inteligencia Artificial a las empresas.

Voy a intentar contar aquí lo que creo al respecto, de forma más calmada que cuando me preguntan a quemarropa en una conversación informal. Está dirigido a CEOs y CMOs o, en general, personas al cargo de organizaciones o de parte de ellas desde una perspectiva de negocio.

Si eres más del lado de la tecnología, probablemente deberías leer esto pero, quizás, también tendrás otras preguntas que aquí no voy a tratar (y algunas que, seguramente, no soy capaz de contestar).

Empecemos por el principio

Lo primero de todo: no sé qué es eso de «adoptar la Inteligencia Artificial«. En serio, no lo sé. Me lo habéis preguntado, pero no sé qué contestar. Me suena tan difuso como «adoptar las matemáticas en mi empresa».

En primer lugar, no lo entiendo porque la IA engloba multitud de métodos distintos pero, principalmente, no lo entiendo porque no tiene sentido adoptar algo con el único objetivo de adoptarlo: si lo haces, tendrás que hacerlo para resolver algún problema de tu negocio. Que para eso eres CEO.

Así que la pregunta correcta no es «¿cómo puedo adoptar la IA en mi empresa?» sino «tengo el problema X, ¿puedo resolverlo mejor aplicando algún método de Inteligencia Artificial?». Eso ya tiene más sentido de negocio y se aleja del hype que existe alrededor de este concepto.

Vale, pero, ¿cómo lo hago?

Si ya tienes claro qué problema de negocio quieres resolver, lo siguiente que tienes que hacer es comprender qué NO es la Inteligencia Artificial: no es un método mágico que va a resolver tu problema de un plumazo.

Incluso aunque leas a diario artículos sobre cómo la IA va a cambiar el mundo, nos va a hacer inmortales o va a provocar el fin de la Humanidad, nada de eso es cierto. O, como mínimo, no lo va a ser en un plazo razonable (hay una discusión filosófica y teórica válida sobre estos temas, pero excede el alcance de este texto).Sigue leyendo el artículo…