Everything from:analítica

¿Qué son los datos sintéticos?

Los datos sintéticos (en inglés, «Synthetic Data«) son un método para, a partir de un conjunto de datos que queremos proteger pero que necesitamos compartir con terceros, generar un nuevo conjunto de datos que conserva las características informacionales del conjunto origen pero que no permite recomponer los datos originales a partir de los creados artificialmente.

Los datos sintéticos suponen una evolución de los métodos más comunes para compartir datos con terceros, cada uno de los cuales tiene sus desventajas particulares:

  • La anonimización y pseudonimización, que consisten en eliminar o enmascarar las partes más sensibles de un conjunto de datos (como mínimo, los datos personales identificables). Hoy en día, está comúnmente aceptado que no son prácticas robustas para compartir datos, ya que es relativamente sencillo inferir los datos eliminados, fundamentalmente mediante el cruce con otros conjuntos de datos.
  • La agregación de datos: en lugar de compartir los datos detallados, se crean datos «resumidos». Por ejemplo, un negocio retail que necesite compartir sus datos de ventas puede compartir las ventas agregadas por día y categoría de producto, en lugar de compartir un listado detallado de las compras de sus clientes. Si bien este enfoque puede ser válido para algunos usos concretos, no lo es para muchos otros, porque a medida que aumentamos la robustez de los datos compartidos mediante un mayor nivel de agregación, se reduce también su valor informacional (en el ejemplo anterior, perderíamos la posibilidad de analizar el comportamiento de nuestros distintos segmentos de cliente).

Existen otros mecanismos, más avanzados, que aseguran que las actividades de compartición de datos mantienen la privacidad de los usuarios a los que hacen referencia esos datos. Por ejemplo, ya he hablado por aquí de la privacidad diferencial.

Sigue leyendo el artículo…

La privacidad diferencial es un conjunto de técnicas que permiten que recopilemos y compartamos datos con la «garantía matemática» de que las personas que proporcionaron esos datos no se van a ver afectadas en modo alguno.

En el terreno del Customer Analytics, la privacidad diferencial nos permite entrenar modelos con datos de clientes con la tranquilidad de que el modelo no va a aprender ni a recordar detalles de ningún cliente específico.

Podemos prometer a cada cliente que sus datos concretos no serán revelados, incluso aunque se combinen con otros conjuntos de datos. Esa promesa no es un simple compromiso de marketing o legal, sino que se basa en los fundamentos matemáticos sobre los que se sustenta la privacidad diferencial.

Cómo funciona la privacidad diferencial

Para proteger los datos sensibles de cada sujeto, cuando se lance una consulta a un sistema que incorpore la privacidad diferencial, este modificará el resultado de la consulta añadiéndole nuevos datos (ruido) extraídos aleatoriamente de una distribución generada a partir de los datos originales.

Así, un conjunto de datos que incorpore este concepto al que preguntemos algo como «¿cuántos clientes que nos llamaron ayer tienen un saldo en cuenta superior a 100.000 euros?» no nos devolverá la cifra exacta y real, sino un número cercano a ella resultante de sumarle un valor (positivo o negativo).

Sigue leyendo el artículo…

Hace ya unos cuantos años, me tocó vivir la irrupción a gran escala del agilismo en la industria del desarrollo de software en España. En poco tiempo, el agilismo pasó del desprecio y la sospecha al más puro mainstream. Tanto es así que, ahora mismo, ya hay un buen número de desarrolladores de software que no han conocido otra manera de llevar a cabo su trabajo.

Después de esa etapa, me acerqué profesionalmente al mundo de las startups. Aquí, conceptos como Lean Startup son imperantes. Aunque no están directamente relacionados, agilismo y Lean Startup comparten un mismo esquema mental, con conceptos subyacentes como:

  • no podemos saberlo/planificarlo/estimarlo todo de antemano
  • cuanto antes empecemos a generar productos reales, aunque parciales, antes podremos validar si son lo que el negocio necesita
  • si vamos a equivocarnos, mejor hacerlo lo antes posible, para poder corregir el rumbo mientras aún haya oportunidad

El agilismo no ha llegado a todos los ámbitos por igual

Con esas dos etapas a mis espaldas, uno corre el riesgo de pensar que ya todo el mundo tiene interiorizada esa forma de afrontar los proyectos… pero nada más lejos de la realidad.

Sigue leyendo el artículo…

Tengo la impresión de que vivimos un repunte del uso del indicador Net Promoter Score (NPS). Tras un pico de popularidad a mediados de la década pasada, el NPS perdió fuelle durante unos años.

Sin embargo, recientemente, el NPS ha vuelto a protagonizar muchas conversaciones a mi alrededor: desde proveedores de servicios que lo destacan en su portfolio hasta clientes que re-indexan todos sus objetivos para basarlos en la mejora del NPS. Un auténtico resurgimiento, vamos.

En cierto modo, ver que las empresas se preocupan por el NPS es positivo: es una señal de que, quizá, les interesa la salud de la relación con sus clientes. Todo lo que sea preocuparse por dar una mejor experiencia debería ser bienvenido, así que sí, bien, fantástico…

O no.

Sería fantástico si no fuera porque el Net Promoter Score es un indicador muy mejorable que, además, se suele implantar muy mal.

De qué estamos hablando: cómo “funciona” el NPS

Vamos, en primer lugar, a describir el NPS, para que todos hablemos de lo mismo.

Seguro que te ha pasado cientos de veces: compras algo en un comercio online y, al terminar el proceso, la web te hace esta pregunta:

Típica encuesta de Net Promoter Score (NPS)

Los negocios offline también la usan: típicamente, te llaman o te mandan un email, pasados unos días.

Esto es muy común, todos lo conocemos. Lo que no es tan habitual es saber que, en esa escala de 11 números, no todos cuentan igual:

Sigue leyendo el artículo…

En esto de la Inteligencia Artificial, vivimos un momento paradójico provocado por la confluencia de dos corrientes.

Meme sobre Machine Learning y estadística Tenemos, por un lado, a quienes creen que estas cosas del Machine Learning no son más que “estadística avanzada”. Este meme que ha pululado por las redes en los últimos meses es un ejemplo de esta corriente de pensamiento.

Por otra parte, están (estamos) los que cada vez queremos hablar menos de “Inteligencia Artificial”, porque cada uno entendemos cosas (muy) distintas cuando oímos este concepto, lo que lo hace peligroso. Tú dices “Inteligencia Artificial” queriendo decir Machine Learning y el de enfrente entiende “máquinas inteligentes que nos van a robar el trabajo como paso previo a esclavizarnos y aniquilarnos”. O, en el mejor de los casos, entiende “con esto haces dos clicks y ya está resuelto”, que viene a ser igual de estúpido.

Y es que, amigos, ni una cosa ni la otra.

Ni “la Inteligencia Artificial” va a cobrar conciencia de sí misma y provocar un holocausto nuclear, ni su forma actual (el aprendizaje automático o Machine Learning) es “poco más que estadística avanzada”.

No es una varita mágica, ni un arma nuclear

El término “Inteligencia Artificial” es desafortunado. Hunde sus raíces en un momento en el que la ciencia aspiraba a replicar nuestra inteligencia. La cultura popular abrazó el concepto, echó a volar la imaginación y logró fijarlo en nuestras retinas y mentes como un proceso imparable cuya culminación era sólo cuestión de (poco) tiempo.

Sigue leyendo el artículo…

La semana pasada, participé en Salón Mi Empresa 2017 con una charla titulada «Cómo validar que estás avanzando».

La charla estuvo orientada a quienes están dando sus primeros pasos con sus proyectos. Fue una introducción a los principales indicadores que hay que tener controlados, aunque los dividí en dos grandes grupos: los que se aplican antes de haber encontrado «product-market fit» y los que tienen sentido en etapas posteriores, dedicadas al crecimiento.

Sigue leyendo el artículo…

Desde que empecé a trabajar en Bitext, me han preguntado ya muchas veces qué es el análisis del sentimiento (o, en inglés, “sentiment analysis”): es el proceso por el que determinamos si una frase o acto de habla contiene una opinión, positiva o negativa, sobre una entidad concreta o sobre un concepto. Es un término que está muy ligado a las redes sociales pero que, en realidad, no está limitado a ellas.

Mediante el análisis del sentimiento, aspiramos a entender, en primer lugar, con qué guarda relación el texto que analizamos. Por ejemplo, nos interesa saber si la frase en cuestión trata sobre nuestra marca o sobre el concepto que nos interesa analizar (p. ej. – “hoteles”). Idealmente, querremos saber esto pero con mayor nivel de granularidad: ¿a qué se refiere exactamente la frase? ¿A nuestra marca, en general, o a un aspecto de nuestro producto o servicio (envase, precio, la habitación, la atención recibida…)? Una vez que el sistema tiene claro sobre qué es la opinión, nuestro segundo objetivo será conocer el sentido de esa opinión (positiva o negativa, básicamente), así como la intensidad de esa opinión. A esa puntuación, técnicamente, la llamamos “intensidad de la polaridad”.

Los sistemas más sencillotes se limitan a leer una frase y buscar en ella palabras que tienen registradas en su diccionario como buenas o como malas. Si aparece una palabra buena (p. ej. – “estupendo”), es una opinión positiva. Si aparece una palabra mala (p. ej. – “decepcionada”), es una opinión negativa. Si no encuentran ninguna palabra que, según su diccionario, exprese algo negativo o positivo, estos sistemas más sencillos suelen hablar de “opiniones neutras”, aunque para mí sería preferible entender que lo que ocurre es que no hay opinión como, por ejemplo, si yo tuiteo “Estoy esperando a mi primo en el McDonald’s”. Paradójicamente, muchos de esos sistemas simples también te dirán que una opinión es neutra si han encontrado una palabra negativa y otra positiva. Esto último debería provocar sonrojo a más de uno, pero no.Sigue leyendo el artículo…