NaN-tic 26 may 2022
El análisis de datos es una de las herramientas empresariales que más ha cambiado y desarrollado en lo que llevamos de siglo XXI. El puesto de analista de datos, que hace diez años apenas se oía, a día de hoy es de los perfiles profesionales que más ha crecido su demanda en empresas de todo tipo, en grandes empresas y no tan grandes. De hecho, ¿no os pasa que es raro acostarse un día sin haber oído o leído las palabras «big data», «data scientist», «machine learning» o «inteligencia artificial»?
En este artículo vamos a poner los pies en el suelo aclarando (para legos) qué son y qué no son algunos conceptos, y con ello descubrirás los errores más comunes en el análisis de datos para que puedas ponerle solución en tu empresa o proyecto.
Para ello, entrevistamos a una experta en análisis de datos, Cristina Campos, data scientist y divulgadora científica. Cristina es licenciada en Física en la especialización de Astrofísica por la Universidad de la Laguna y fue becada por el Instituto Astrofísico de Canarias para estudiar las nebulosas planetarias. Al terminar la carrera, ganó la beca para el puesto de astrofísico residente del IAC, quedando en primer puesto, donde trabajo para el programa Sunrise de la NASA. Tras esta etapa, se especializó en matemática estocástica e inteligencia artificial estudiando Finanzas en la UOC, Inteligencia Artificial en la Universidad de Standford y el máster de Matemáticas para instrumentos financieros de la UAB, y trabajó haciendo predicciones de bolsa en el sector bancario. Hoy en día, Cristina Campos se centra en la IA, el análisis de datos y su visualización en la empresa Dainso, de la que es co-fundadora.
Después de hablar con Cristina, te das cuenta de que es una apasionada de la ciencia, y que transmite sus conocimientos con habilidad para entusiasmar.
Lo primero, tenemos que matizar qué es el big data. Simplificando, es exactamente el mismo trabajo de análisis de datos, la diferencia radica en que el big data es una ingente cantidad de datos, el manejo de los cuales requiere recursos computacionales y de programación que no están al alcance de todos por su dificultad y potencia. La buena noticia es que la mayoría de las empresas no tiene big data, tienen como mucho large data, que es otro nivel. Pero la ciencia que hay detrás para su estructuración y provecho es la misma independientemente de su tamaño, es el análisis de datos.
El análisis de datos para saber y comprender lo que ya ha ocurrido en el pasado, o sea un modelo descriptivo, es lo que suelen querer las empresas y está lejos de verse afectado por lo que llamaríamos caos. En cambio, si hablamos del análisis de datos para generar predicciones a partir de lo que ha sucedido en el pasado, el modelo predictivo es diferente, ahí las posibilidades de variables imprevistas aumentan. Sin embargo, consiguiendo un 70% u 80% de fiabilidad en tu predicción ya tienes mucho ganado en la toma de decisiones empresariales, mucho más que lanzando una moneda al aire. Se aplican, por ejemplo, técnicas de machine learning, matemáticas estocásticas donde se tienen en cuenta movimientos aleatorios (se usa mucho por ejemplo en el mundo financiero).
El machine learning es precisamente una imitación del funcionamiento del cerebro humano, imita nuestras conexiones neuronales para aprender de lo que ya ha pasado, y en base a eso predice. El análisis de datos y los modelos predictivos no son más que una herramienta, por ejemplo, un comercial experimentado puede saber qué va a vender más de su catálogo de productos, però si el catálogo es grande le falta información, la automatización de los datos y del análisis le ayudará a que no se le pasen por alto oportunidades de venta.
El primer error es el uso de programas que no fueron diseñados para el análisis de datos a día de hoy, que tienen una presentación rudimentaria de los datos y que, además, la recogida de datos es manual con la cantidad de errores que eso implica.
El segundo error es cómo estructuran los datos, no todos los datos son relevantes y nos pueden introducir ruido según lo que queramos medir. Así pues, el resultado es que no obtenemos la información que necesitamos.
En tercer lugar, no tener objetivos realistas con relación a qué podemos obtener del análisis de datos. Sobre todo en cuanto a modelos predictivos, a veces se esperan resultados que no son posibles. Expectativas alimentadas por la creencia de que la Inteligencia Artificial es sobrehumana, y no lo es, en absoluto.
Otra dificultad añadida es la dispersión de los datos, si no se usa un software que integre todos los datos y que está diseñado para que estos datos estén sincronizados en todos los procesos, como es un ERP, la disgregación de la información juega en nuestra contra.
En quinto y último lugar, la falta de objetividad. Si alguien tiene mucho interés en encontrar un resultado a través de los datos, lo encontrará. Es muy importante basar la elección, estructuración y combinación de los datos de forma objetiva, además de un modelaje correcto, para acercarnos lo máximo possible al conocimiento de la realidad. Por eso es muy bueno que agentes externos a la organización revisen el trabajo de análisis de datos.
Es súper importante por una razón muy sencilla, en su día a día, una persona que está dedicada a dirigir un negocio, tiene que concentrar sus esfuerzos en muchas direcciones, y no se puede pasar el día mirando número a número, con lo cual, el dashboard tiene que ser una herramienta que le ayude a que según se abra, a primer golpe de vista, le de la información más importante para que pueda tomar las decisiones a tiempo, antes de que las cosas puedan empeorar. Es muy importante poder anticiparse. Que la toma de información sea visual le ahorra muchas horas.
El sector financiero, como el médico, como el educativo y como tantos otros, han cambiado mucho desde nuestros padres a nosotros. Ahora todo es muy rápido, alguien puede hacer un seminario de dos semanas de programación o de data science intensivo, pero las personas que dedicamos nuestros años universitarios a las matemáticas, a las ingenierías, a la física, etc., aprendimos a cómo pensar para solucionar problemas y en el mundo del análisis de datos y modelos predictivos no hay atajos, requiere tiempo.
Hasta aquí la entrevista a Cristina Campos que ha sido tan amable de contestar nuestras preguntas.