Blog de Bismart: Últimes Notícies en Dades, IA i Business Intelligence

Què és l'arquitectura Medallion en un context Data Lakehouse?

Written by Núria Emilio | 10/10/2023 08:30:00

A mesura que la quantitat de dades produïdes augmenta i les tecnologies requerides per al seu processament també, les organitzacions aposten per arquitectures de dades avançades que els permetin satisfer noves necessitats. En aquest context, sorgeix l'arquitectura Medallion, una perspectiva nova que encaixa perfectament amb l'enfocament data lakehouse i promet fomentar la qualitat de les dades.

La quantitat de dades continua creixent any rere any. Segons les últimes estadístiques de Forbes (2023), els experts anticipen que el volum total de dades a escala mundial augmentarà de 64,2 a 181 zettabytes en cinc anys (2020-2025).

L'increment exponencial de la quantitat de dades generades està posant el focus en disciplines com la data governance (governança de dades) i la data quality (qualitat de dades). Com més dades tenim, més es complica la seva gestió i el seu aprofitament. D'altra banda, la transformació de les dades en insights de negoci ja no depèn de la quantitat, però sí de la seva qualitat. En un context de sobreinformació, resulta comprensible que les polítiques de qualitat de dades adquireixin major rellevància.

Les empreses estan intentant resoldre aquest entramat amb arquitectures de dades flexibles que els permeten adoptar noves tecnologies i enfocaments en la gestió de dades a mesura que sorgeixen necessitats, la qual cosa és essencial per a mantenir-se al dia en un entorn canviant. D'altra banda, la flexibilitat possibilita adaptar-se de forma més ràpida a les transformacions del mercat i a les noves demandes dels clients. 

Recentment, i d'acord amb tot l'exposat, s'està popularitzant un nou enfocament, l'arquitectura Medallion, que a més d'encaixar amb arquitectures de dades flexibles, promou les garanties quant a assegurar una qualitat òptima de les dades processades. 

Abans de passar a explicar què és una arquitectura de dades Medallion i com funciona, és important introduir altres conceptes: data lakehouse i data mesh.

Què és un data mesh o malla de datos?

Data Mesh o malla de dades és un enfocament que aporta flexibilitat a la gestió de dades. Es tracta, per tant, d'una arquitectura de dades flexible.

La principal premissa de l'enfocament data mesh és tractar les dades com a productes, assignant responsabilitats a equips específics per a dominis de dades particulars. Això descentralitza la propietat i assegura que els equips coneguin millor les dades que produeixen. Les dades es lliuren a través de productes de dades i es gestionen mitjançant plataformes centralitzades.

Aquest enfocament promou la col·laboració, la qualitat de les dades i el seu fàcil accés en entorns empresarials complexos.

Què és un Data Lakehouse?

Un Data Lakehouse és una arquitectura de dades que combina la flexibilitat d'un Data Lake (per a emmagatzemar dades brutes i no estructurats) amb la capacitat analítica d'un Data Warehouse (per a anàlisis estructurades). Permet emmagatzemar, processar i analitzar una varietat de dades en un sol lloc, facilitant anàlisis avançades i proporcionant insights valuosos per a les organitzacions, tot això amb mesures de seguretat i governança robustes.

En poques paraules, es tracta de la combinació d'un data lake i un data warehouse.

Què és l'arquitectura Medallion?

En el món de la gestió de dades, l'arquitectura "Medallion", també coneguda en espanyol com a arquitectura del medalló o arquitectura multisalt, és un enfocament per al disseny de models de dades que fomenta l'organització lògica de les dades dins d'un data lakehouse

L'arquitectura Medallion estructura les dades en un enfocament multicapa —capa bronze, plata i or— tenint en compte i fomentant la qualitat de les dades a mesura que avancen en el procés de transformació (des de dades en brut fins a insights empresarials de valor).

Aquest enfocament va ser proposat per Databricks, una autoritat en el camp de la gestió de dades, que advoca per tractar les dades com a productes (Data as a Product o DaaP) i els enfoquis multicapa per a construir una font de la veritat única en una organització.

Aquesta arquitectura Medallion garanteix la integritat de les dades en passar per diverses etapes de validacions i transformacions que s'encarreguen d'assegurar la coherència i la durabilitat de les dades. Una vegada que les dades han passat per aquestes validacions i transformacions, s'emmagatzemen en una disposició òptima per a una anàlisi eficaç, llestos per a ser utilitzats en la presa de decisions estratègiques.

Com s'estructura l'arquitectura Medallion?

Arquitectura Medallion per capes: Bronze, Silver i Gold

Com ja hem explicat, el fet més distintiu de l'arquitectura Medallion és que estructura les dades per capes: la capa bronze, la capa plata i la capa or.

  • Capa Bronze: Aquesta fase marca l'entrada de dades sense processar, que s'emmagatzemen tal com són recopilats, habitualment, de diverses fonts i en formats com CSV o JSON. Les dades solen ser dades crues i variar en qualitat i estructura.

  • Capa Plata (Silver): En aquest punt, les dades es processen i es transformen per a aconseguir dades més netes i estructurades. Es duen a terme tasques com filtrat, validació i normalització de les dades, que s'emmagatzemen en formats eficients. Aquesta fase pot incloure esquemes definits i metadades addicionals.

  • Capa Or (Gold): Aquesta etapa conté dades ja preparades per a l'anàlisi i l'ús empresarial. En la capa Gold es realitzen transformacions avançades i agregacions per a crear conjunts de dades enriquides. Les dades estan estructurades, són optimitzats per a consultes ràpides i poden ser enriquits amb informació addicional o fusionats amb altres fonts de dades per a obtenir insights més profunds.

En resum, en una arquitectura Medallion, la qualitat i l'estructura de les dades milloren a mesura que passen per cada capa. La capa bronze conté dades en brut, la capa plata conté dades depurades i enriquides, i la capa or conté dades agregades i llestes per a ser analitzats i integrats en aplicacions empresarials. 

Aquesta arquitectura modular facilita la gestió de dades a gran escala i permet una adaptació àgil a les necessitats canviants.

Arquitectura Medallion, Data Lakehouse i ELT

En el context d'una arquitectura Medallion amb enfocament data lakehouse, és habitual seguir la metodologia ELT en comptes d'ETL. Això implica realitzar les transformacions mínimes i aplicar regles de neteja de dades durant la càrrega de les dades en la capa Silver, prioritzant la rapidesa i agilitat en la ingestió i lliurament de dades en el data lake. Les transformacions complexes i regles de negoci específiques s'apliquen una vegada les dades passen de la capa Silver a la capa Gold.

Aquest funcionament permet una major flexibilitat per a adaptar les dades segons les necessitats específiques de cada projecte i negoci, la qual cosa facilita la implementació de transformacions i regles de negoci complexes en les fases posteriors del procés.

Conclusió

En conclusió, l'arquitectura Medallion es presenta com una solució innovadora per a satisfer les necessitats de les organitzacions en el maneig de grans volums de dades. En combinar els beneficis de l'enfocament data lakehouse amb l'estructura multicapa de bronze, plata i or, es promou la qualitat de les dades i es facilita la seva transformació en insights empresarials valuosos. Aquesta arquitectura permet una gestió flexible de les dades, adaptant-se a les demandes canviants del mercat i proporcionant una font de la veritat única en una organització. Si desitges conèixer més sobre l'arquitectura Medallion i com pot beneficiar a la teva empresa, et convidem a continuar explorant aquest tema i a implementar aquest enfocament innovador en la teva estratègia de gestió de dades.