Por Nicolás Martins, docente de la Maestría en Ciencia de Datos de la Universidad CAECE
Si en la antigüedad hubiésemos afirmado ante los reyes que la información y los datos serían valorados más que el oro, seguramente hubiéramos sido muy cuestionados. En cambio, en la actualidad, cada vez es más frecuente escuchar que los datos son el nuevo oro. No obstante, el acelerado incremento de información requiere de nuevas herramientas y/o metodologías que permitan gestionar los datos de forma eficiente y obtener su máximo provecho. Aquí es donde debemos hablar de Modern Data Stack, Data Contracts y Zero ETL.
Antes de hablar de tecnologías específicas, es importante entender qué son los contratos de datos. En esencia, son acuerdos en los que se establecen los términos y condiciones para el intercambio de información entre dos o más partes. Estos contratos pueden ser utilizados para definir los derechos de propiedad, la privacidad, la confidencialidad, la seguridad y otros aspectos relacionados con los datos. Los Data Contracts ayudan a garantizar que los datos sean consistentes y estén disponibles cuando y donde se necesiten. Es por ello que son particularmente útiles en el contexto del Modern Data Stack, ya que ayudan a garantizar que los datos se muevan de manera coherente y cohesiva a través de todas las capas de la arquitectura. Un ejemplo alentador es el de aquellos equipos que han dejado de usar los modelos tradicionales de Datawarehouse para determinados casos de negocio y crearon interfaces explícitas entre los generadores de datos y los consumidores de datos, como una API.
El modern data stack se compone de varias herramientas y tecnologías, incluyendo bases de datos de almacenamiento en la nube, herramientas de extracción y transformación de datos, herramientas de aprendizaje automático y de visualización. Es una nueva forma de estructurar los procesos de gestión de datos y consiste en una arquitectura en capas que permite a las empresas recopilar, almacenar, analizar y presentar datos de una manera más eficiente y escalable a través de un conjunto de tecnologías específicas para cada capa de la arquitectura de datos.
Su diferencia principal con el enfoque de plataforma de datos reside en que ya no buscamos un producto o solución “monolítica” que nos resuelva todas las etapas comprendidas en un requerimiento típico de Business Intelligence o Machine Learning, desde la integración y transformación de datos hasta las etapas finales de explotación y visualización, sino que cada capa o stack de tecnología se “apila” sobre la anterior para resolver específicamente la necesidad, y es intercambiable eventualmente por otro producto o solución.
ETL (Extract, Transform, Load) es un proceso comúnmente utilizado para integrar datos de diferentes fuentes en un solo sistema. Este proceso implica extraer los datos de diferentes fuentes, transformarlos en un formato común y luego cargarlos en una base de datos. Sin embargo, puede ser lento y complejo, especialmente cuando se manejan grandes volúmenes de datos.
Zero ETL es una tecnología o enfoque que simplifica el proceso de integración de datos eliminando la necesidad de transformar los datos antes de que se carguen en un almacén de datos. En su lugar, Zero ETL utiliza técnicas de modelado de datos para mapear los datos directamente donde están las diferentes fuentes. Esto permite que, en determinados casos de uso, los datos se integren más fácilmente, lo que ahorra tiempo y reduce la complejidad del proceso, por ejemplo para la práctica de Machine Learning.
Los avances tecnológicos en el mundo de los datos continúan cambiando la forma en que las empresas manejan grandes cantidades de información. El Modern Data Stack, los Data Contracts y Zero ETL son sólo algunas de las innovaciones tecnológicas más recientes que han surgido para mejorar la eficiencia y la escalabilidad del proceso de gestión de datos. Conceptos que seguramente hubiese sorprendido a los antiguos reyes, pero que no tendremos que dejar que nos sorprendan hoy en día, con el fin de estar preparados para el descubrimiento del nuevo mundo de los datos.