La ciencia de datos (también conocida como data science) promete ser una gran revolución, y poco a poco, lo va consiguiendo. Ofrece diversos campos de aplicación, desde la Salud hasta la Astronomía o la Ingeniería. A través del diseño y construcción de modelos, permite dar respuesta a diferentes fenómenos.
Por ejemplo, cómo evoluciona una pandemia o cambios en el comportamiento de los consumidores dada las nuevas circunstancias económicas, políticas y sociales que enfrenta un país.
El científico y matemático japonés, Hayashi Chikio, en su libro ¿Qué es la ciencia de datos? Conceptos fundamentales y un ejemplo heurístico, la define como “un concepto para unificar estadísticas, análisis de datos, aprendizaje automático, y sus métodos relacionados, a efectos de comprender y analizar los fenómenos reales, empleando técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información y la informática”.
En Chile, la metodología como tal se enseña en instituciones como la Universidad Católica, la Universidad Adolfo Ibáñez y la Universidad Austral, entre otros. Además, se aplica en otras carreras, que incluyen la ciencia de datos en sus contenidos, transformándola en una área interdisciplinaria.
En relación al auge y consolidación de éstas, a su valor científico, su utilidad cotidiana y cómo ha crecido este campo, el director y académico del Instituto de Ingeniería Matemática y Computacional de la Universidad Católica (IMC UC), Pablo Barceló, señala que la ciencia de datos es el factor habilitante más importante en temas de inteligencia artificial hoy en día, “todo su desarrollo, que ha crecido de manera exponencial en los últimos 10 a 12 años, se basó en una primera etapa en la ciencia de datos. Es difícil separarlos. Su potencial tiene relación en cómo disponibilizas los datos para poder aprender cosas relevantes y resolver problemas, en diferentes áreas, tanto en empresas, como en el sector público, por ejemplo”.
El IMC UC implementó a partir de este año la carrera de Licenciatura en Ingeniería en Ciencia de Datos, con 55 alumnos (para 2022 se abrirán cinco cupos más). Está enfocada en estudiantes interesados en las matemáticas, la programación y la tecnología, para desempeñarse en diversos roles de la ciencia de datos, desde investigaciones en áreas como astronomía y medicina, hasta la creación de emprendimientos propios.
La Universidad Adolfo Ibáñez trabaja la disciplina a través de Data Observatory (DO) y dicta un Diplomado y Magíster en Data Science, en la Facultad de Ingeniería y Ciencias. Se trata de un plan a gran escala, que pretende convertirse en el mayor laboratorio de Big Data del mundo. El proyecto pondrá los datos que proporcionan los grandes observatorios del norte, a disposición de cualquier persona, no solo para generar conocimiento astronómico, sino para extrapolarlo a otras áreas del conocimiento. La iniciativa ya cumplió un año.
Rolando de la Cruz, académico de la Facultad de Ingeniería y Ciencias de la UAI y director del Magíster en Data Science UAI, explica que la ciencia de los datos es un paso evolutivo en campos interdisciplinarios, como el análisis de negocios que incorpora la informática, el modelado, la estadística, la analítica y las matemáticas en uno solo proceso. “En la década de los sesenta el científico danés Peter Naur lo utilizó por primera vez como sustituto de las ciencias computacionales. En 2001, William S. Cleveland introdujo la ciencia de datos como una disciplina independiente, extendiendo el campo de la estadística para incluir los avances en computación con datos. Se podría decir que la ciencia de datos es hija de la estadística y la informática. Aunque ha heredado algunos de sus métodos y pensamientos, también trata de mezclarlos, reenfocarlos y desarrollarlos para abordar el contexto y las necesidades del análisis científico de datos moderno”.
Barceló pone sobre la mesa algunos ejemplos concretos y prácticos de su uso. “Trazabilidad de Covid-19, efectividad de las vacunas, seguir la ruta del Transantiago de manera óptima, construcción de chatbots, detección de fraudes, sistemas de recomendación de películas, descubrimiento de medicamentos, detección automática de tumores, entre otros”.
De la Cruz añade otros. “Identificación de ciberamenazas, sistemas de pricing dinámicos, detección de fraudes, cálculo de primas, detección de tumores y búsqueda de tratamientos, sistemas de mantenimiento predictivo, optimización de cadenas de suministro, monitoreo y control de calidad, análisis de emociones de redes sociales, análisis predictivo de noticias falsas, predicción de fuga de clientes, entre otras”.
¿Cómo funciona? Lo primero es tener datos de buena calidad, “ojalá muchos, y que estén completos e integrados, que representen de la mejor forma posible a tu institución y organización. Una vez que tienes eso, se aplican diferentes tipo de algoritmos de análisis de datos, de machine learning, que son prácticamente cajas negras que se utilizan con los datos, que entregan conclusiones. Si no se ajustan a lo que buscas, empiezas a jugar con otros modelos, hasta encontrarlo. Pero si los datos no son buenos, es imposible conseguirlo. Hay un dicho muy famoso: Garbage in, garbage out. Es decir, si tienes basura, vas a sacar basura”.
El modelo de la UAI combina al sector público y privado, y cuenta con el apoyo del Ministerio de Ciencia, el Ministerio de Economía, Amazon Web Services (AWS) y el Observatorio Europeo Austral (ESO), que opera a través de la transferencia de datos. Por primera vez en Chile, se podrán procesar datos extraídos del espacio y cielo, y utilizarlos en desarrollo, tecnología, innovación, conocimiento y ciencia, entre otros. Su objetivo es potenciar al máximo el beneficio que se puede obtener de estos datos, de valor global, que se generan en el país.
Optimización y gestión
Barceló, doctor en ciencia de la computación, explica el potencial de la carrera y de los estudios asociados a la ciencia de datos. “La Universidad Católica ha entendido que este es un tema muy relevante, y ha invertido en su planta académica en esta área. Para potenciar esta licenciatura, había que invertir en una planta académica especializada, y hoy en día, ya cuenta con varios centros de investigación de primer nivel, tanto en temas de ciencia de datos como en inteligencia artificial. A nivel latinoamericano, es la más avanzada”.
La ciencia de datos actual, aunque con un telón de fondo moderno, se inspira en el molde original de John W. Tukey. “En la investigación moderna, los científicos de diversas disciplinas se enfrentan a abundantes conjuntos de datos y confían en el valor de los mismos para avanzar en sus objetivos científicos. La ciencia de los datos se centra en la explotación del moderno diluvio de datos para la predicción, exploración, comprensión e intervención. Hace hincapié en el valor y la necesidad de la aproximación y la simplificación. Valora la comunicación eficaz de los resultados de un análisis de datos y de la comprensión del mundo que extraemos de ellos”, explica de la Cruz.
Da prioridad a la comprensión de los algoritmos de optimización y a la gestión transparente del inevitable equilibrio entre precisión y velocidad. “Promueve los análisis específicos de cada ámbito, en los que los científicos de datos y los expertos en la materia trabajan juntos para equilibrar las hipótesis adecuadas con métodos computacionalmente eficientes”, agrega el académico de la UAI.
Las carreras de ciencia de datos están vinculadas directamente con áreas como machine learning, deep learning y computación, entre otras. De la Cruz señala que el fin de la ciencia de datos es extraer el valor de los datos para tomar mejores decisiones, mejorar procesos, crear productos y servicios más innovadores. “Su uso es cada vez más popular en las distintas empresas. Muchas de ellas han hecho de la ciencia de datos una prioridad y están cada vez más, adoptándola para establecer correctas estrategias de negocios y así mantener ventajas competitivas”.
La Universidad Austral también entró en escena, a través de la propia UAI y Data Observatory, mediante una plataforma que permite almacenar, gestionar y compartir datos históricos oceanográficos de la Región de Magallanes, provenientes del Centro de Investigación Dinámica de Ecosistemas Marinos de Altas Latitudes (IDEAL). La plataforma entrará en operaciones a fines de 2021 y entregará acceso liberado a investigadores y, posteriormente, a tomadores de decisiones de diversos sectores productivos.
El director del Magíster en Data Science UAI considera “que la investigación en ciencia de datos es desafiante y abre nuevas líneas de investigación. La ciencia de los datos es algo más que la combinación de estadística y ciencias de la computación: requiere una formación que permita entrelazar las técnicas estadísticas y computacionales en un marco más amplio, problema por problema, y abordar cuestiones específicas de la disciplina. La ciencia de datos cuenta con un enfoque holístico y global, requiere que entendamos el contexto de los datos, que apreciemos las responsabilidades que implica el uso de datos privados y públicos, y que comuniquemos claramente lo que un conjunto de datos puede y no puede decirnos sobre el mundo. Esto ha llevado a que aparezcan muchas ofertas de programas académicos a nivel global para formar a especialistas en ciencia de datos que las empresas cada día demandan”.