Descubre qué es la arquitectura Medallion, una nueva arquitectura de datos que apuesta por la flexibilidad y la calidad de los datos en un data lakehouse.
A medida que la cantidad de datos producidos aumenta y las tecnologías requeridas para su procesamiento también, las organizaciones apuestan por arquitecturas de datos avanzadas que les permitan satisfacer nuevas necesidades. En este contexto, surge la arquitectura Medallion, una perspectiva novedosa que encaja perfectamente con el enfoque data lakehouse y promete fomentar la calidad de los datos.
La cantidad de datos sigue creciendo año tras año. Según las últimas estadísticas de Forbes (2023), los expertos anticipan que el volumen total de datos a nivel mundial aumentará de 64,2 a 181 zettabytes en cinco años (2020-2025).
El incremento exponencial de la cantidad de datos generados está poniendo el foco en disciplinas como la data governance (gobernanza de datos) y la data quality (calidad de datos). Cuantos más datos tenemos, más se complica su gestión y su aprovechamiento. Por otro lado, la transformación de los datos en insights de negocio ya no depende de la cantidad, pero sí de su calidad. En un contexto de sobreinformación, resulta entendible que las políticas de calidad de datos adquieran mayor relevancia.
Las empresas están intentando resolver este entramado con arquitecturas de datos flexibles que les permiten adoptar nuevas tecnologías y enfoques en la gestión de datos conforme surgen necesidades, lo cual es esencial para mantenerse al día en un entorno cambiante. Por otro lado, la flexibilidad posibilita adaptarse de forma más rápida a las transformaciones del mercado y a las nuevas demandas de los clientes.
Recientemente, y en consonancia con todo lo expuesto, se está popularizando un nuevo enfoque, la arquitectura Medallion, que además de encajar con arquitecturas de datos flexibles, promueve las garantías en cuanto a asegurar una calidad óptima de los datos procesados.
Antes de pasar a explicar qué es una arquitectura de datos Medallion y cómo funciona, es importante introducir otros conceptos: data lakehouse y data mesh.
¿Qué es un data mesh o malla de datos?
Data Mesh o malla de datos es un enfoque que aporta flexibilidad a la gestión de datos. Se trata, por tanto, de una arquitectura de datos flexible.
La principal premisa del enfoque data mesh es tratar los datos como productos, asignando responsabilidades a equipos específicos para dominios de datos particulares. Esto descentraliza la propiedad y asegura que los equipos conozcan mejor los datos que producen. Los datos se entregan a través de productos de datos y se gestionan mediante plataformas centralizadas.
Este enfoque promueve la colaboración, la calidad de los datos y su fácil acceso en entornos empresariales complejos.
¿Qué es un Data Lakehouse?
Un Data Lakehouse es una arquitectura de datos que combina la flexibilidad de un Data Lake (para almacenar datos brutos y no estructurados) con la capacidad analítica de un Data Warehouse (para análisis estructurados). Permite almacenar, procesar y analizar una variedad de datos en un solo lugar, facilitando análisis avanzados y proporcionando insights valiosos para las organizaciones, todo ello con medidas de seguridad y gobernanza robustas.
En pocas palabras, se trata de la combinación de un data lake y un data warehouse.
¿Qué es la arquitectura Medallion?
En el mundo de la gestión de datos, la arquitectura "Medallion", también conocida en español como arquitectura del medallón o arquitectura multisalto, es un enfoque para el diseño de modelos de datos que fomenta la organización lógica de los datos dentro de un data lakehouse.
La arquitectura Medallion estructura los datos en un enfoque multicapa —capa bronce, plata y oro— teniendo en cuenta y fomentando la calidad de los datos a medida que avanzan en el proceso de transformación (desde datos en bruto hasta insights empresariales de valor).
Este enfoque fue propuesto por Databricks, una autoridad en el campo de la gestión de datos, que aboga por tratar los datos como productos (Data as a Product o DaaP) y los enfoques multicapa para construir una fuente de la verdad única en una organización.
Esta arquitectura Medallion garantiza la integridad de los datos al pasar por varias etapas de validaciones y transformaciones que se encargan de asegurar la atomicidad, la coherencia y la durabilidad de los datos. Una vez que los datos han pasado por estas validaciones y transformaciones, se almacenan en una disposición óptima para un análisis eficaz, listos para ser utilizados en la toma de decisiones estratégicas.
¿Cómo se estructura la arquitectura Medallion?
Arquitectura Medallion por capas: Bronze, Silver y Gold
Como ya hemos explicado, el hecho más distintivo de la arquitectura Medallion es que estructura los datos por capas: la capa bronce, la capa plata y la capa oro.
-
Capa Bronce (Bronze): Esta fase marca la entrada de datos sin procesar, que se almacenan tal y como son recopilados, habitualmente, de diversas fuentes y en formatos como CSV o JSON. Los datos suelen ser datos crudos y variar en calidad y estructura.
-
Capa Plata (Silver): En este punto, los datos se procesan y se transforman para lograr datos más limpios y estructurados. Se llevan a cabo tareas como filtrado, validación y normalización de los datos, que se almacenan en formatos eficientes. Esta fase puede incluir esquemas definidos y metadatos adicionales.
-
Capa Oro (Gold): Esta etapa contiene datos ya preparados para el análisis y el uso empresarial. En la capa Gold se realizan transformaciones avanzadas y agregaciones para crear conjuntos de datos enriquecidos. Los datos están estructurados, son optimizados para consultas rápidas y pueden ser enriquecidos con información adicional o fusionados con otras fuentes de datos para obtener insights más profundos.
En resumen, en una arquitectura Medallion, la calidad y la estructura de los datos mejoran a medida que pasan por cada capa. La capa bronce contiene datos en bruto, la capa plata contiene datos depurados y enriquecidos, y la capa oro contiene datos agregados y listos para ser analizados e integrados en aplicaciones empresariales.
Esta arquitectura modular facilita el manejo de datos a gran escala y permite una adaptación ágil a las necesidades cambiantes.
Arquitectura Medallion, Data Lakehouse y ELT
En el contexto de una arquitectura Medallion con enfoque data lakehouse, es habitual seguir la metodología ELT en lugar de ETL. Esto implica realizar las transformaciones mínimas y aplicar reglas de limpieza de datos durante la carga de los datos en la capa Silver, priorizando la rapidez y agilidad en la ingestión y entrega de datos en el data lake. Las transformaciones complejas y reglas de negocio específicas se aplican una vez los datos pasan de la capa Silver a la capa Gold.
Este funcionamiento permite una mayor flexibilidad para adaptar los datos según las necesidades específicas de cada proyecto y negocio, lo que facilita la implementación de transformaciones y reglas de negocio complejas en las fases posteriores del proceso.
Conclusión
En conclusión, la arquitectura Medallion se presenta como una solución innovadora para satisfacer las necesidades de las organizaciones en el manejo de grandes volúmenes de datos. Al combinar los beneficios del enfoque data lakehouse con la estructura multicapa de bronce, plata y oro, se promueve la calidad de los datos y se facilita su transformación en insights empresariales valiosos. Esta arquitectura permite una gestión flexible de los datos, adaptándose a las demandas cambiantes del mercado y proporcionando una fuente de la verdad única en una organización. Si deseas conocer más sobre la arquitectura Medallion y cómo puede beneficiar a tu empresa, te invitamos a seguir explorando este tema y a implementar este enfoque innovador en tu estrategia de gestión de datos.