Blog de Bismart: Últimes Notícies en Dades, IA i Business Intelligence

Data Lakehouse: Què és i Avantatges Clau de la seva Arquitectura

Written by Núria Emilio | 16/09/2025 08:15:30

Durant molt de temps, les empreses ham emmagatzamat la seva informació en data warehouses: grans magatzems de dades pensats per organitzar la informació en taules ben estructurades i respondre preguntes mitjançant consultes SQL. Eren molt útils, però també cars i poc pràctics quan es tractava de gestionar dades més modernes, com ara documents, imatges o informació en formats menys rígids.

Per cobrir aquesta necessitat van aparèixer els data lakes: repositoris més econòmics i flexibles, capaços de guardar qualsevol tipus de dades en el seu estat original. Tot i així, tenien un inconvenient important: mancaven de regles clares d’organització i de mecanismes sòlids de control. Això feia que, amb el temps, la qualitat de les dades es veiés compromesa i que accedir a la informació correcta resultés complicat.

Com a resposta a aquestes limitacions neix el data lakehouse, una arquitectura que combina el millor dels dos mons. Ofereix la flexibilitat i el baix cost d’un data lake, però amb l’estructura, el control i la fiabilitat d’un data warehouse.

En aquest article explorarem en detall què és una lakehouse, quins són els seus principals avantatges i com encaixa dins d’una estratègia de dades moderna. També revisarem les tendències més recents que estan marcant l’evolució d’aquest enfocament.

Què és un Data Lakehouse?

Un Data Lakehouse és una arquitectura de dades flexible que combina l’agilitat d’un data lake amb les capacitats analítiques i l’estructura d’un data warehouse.

La fusió de dos enfocaments 

  • Del data lake adopta la capacitat d’emmagatzemar grans volums d’informació en brut, de qualsevol tipus: dades estructurades (taules), semiestructurades (logs, JSON) o no estructurades (imatges, vídeos, sensors IoT).
  • Del data warehouse incorpora eines avançades per organitzar aquestes dades, consultar-les amb eficiència i aprofitar-les en projectes de business intelligence.

En altres paraules, un data lakehouse permet guardar les dades tal com són, sense necessitat de transformar-les a l’inici, i al mateix temps ofereix l’estructura i la velocitat necessàries per analitzar-les fàcilment.

 

El valor d’un únic sistema

L’objectiu d’un data lakehouse és reunir en un sol lloc l’escala i el baix cost d’un data lake, juntament amb l’organització, la data governance i la rapidesa d’un data warehouse. Això resol un problema molt habitual: la fragmentació de dades.

En les arquitectures tradicionals de dos nivells (lake + warehouse), les dades es duplicaven i es transformaven diverses vegades, cosa que augmentava els costos i generava retards.  Amb un lakehouse:

  • S’aprofiten els formats oberts i econòmics del data lake (Parquet, ORC, Delta) amb la fiabilitat de les transaccions d’un warehouse.
  • Un únic repositori centralitza totes les fonts de dades, evitant migracions repetitives i assegurant que la informació estigui sempre actualitzada.
  • Els motors de consulta de nova generació permeten executar SQL d’alt rendiment, gràcies a capes de metadades que indexen els fitxers i garanteixen transaccions ACID.
  • Els equips de ciència de dades poden accedir directament als fitxers per entrenar models de machine learning amb eines com Spark, pandas o TensorFlow.

Una única font de veritat

A la pràctica, el data lakehouse es converteix en l’única font de la veritat dins d’una organització: elimina els silos, evita còpies redundants i permet que tant els projectes de Big Data com els d’intel·ligència de negoci convisquin en la mateixa plataforma.

Això significa que és possible executar, sobre un mateix sistema, càrregues de treball molt diferents: des d’informes de BI fins a entrenaments de models d’IA o anàlisis de dades en temps real.

 

Arquitectura d'un Lakehouse

Components clau

  1. Emmagatzematge de baix cost. Basat en emmagatzematge d’objectes (Azure Blob, Amazon S3, Google Cloud Storage) per a dades en brut.
  2. Capa de metadades. Tecnologies com Delta Lake registren els fitxers que componen cada taula, permeten transaccions ACID, garanteixen el control de versions i la validació d’esquemes.

  3. Motor de consulta. Els nous motors SQL optimitzen l’accés a les dades emmagatzemades en la lakehouse mitjançant memòries cau, índexs, execució vectoritzada i ordenació de dades.

  4. Capa de governança. Permet definir qui pot accedir a quines dades, auditar i garantir el compliment normatiu.

  5. Interfícies d’accés. Les eines de BI (com Power BI) es connecten a través d’endpoints SQL; els científics de dades utilitzen APIs de Spark, pandas o TensorFlow.

Arquitectura Medallion: Bronze, Silver i Gold

Una de les pràctiques recomanades dins d’un data lakehouse és aplicar un disseny per capes de qualitat conegut com a arquitectura Medallion (arquitectura del medalló o multisalt).

Proposada originalment per Databricks, l’arquitectura Medallion és un enfocament que organitza lògicament les dades en un lakehouse en tres capes seqüencials (Bronze, Silver i Gold), promovent la millora de la qualitat de les dades a mesura que avancen des del seu estat en brut fins a informació preparada per al negoci.

Cada capa del medalló representa un nivell de refinament de la dada, amb validacions i transformacions que en garanteixen la integritat i una utilitat creixent.

  • Capa Bronze (dades en brut): En aquesta primera capa s’emmagatzemen les dades tal com arriben, en el seu format original, acompanyades de metadades que indiquen la seva procedència i el moment de la càrrega. El seu objectiu principal és conservar una còpia històrica i auditable de tot el que entra al sistema. Això la fa especialment útil per a tasques com la captura de canvis en les dades (change data capture) o per tornar-les a processar en el futur si és necessari.
  • Capa Silver (dades validades): Aquí les dades de la capa Bronze es netegen, es depuren i s’estandarditzen per oferir una visió empresarial unificada. És el punt en què, per exemple, s’eliminen duplicats en catàlegs de clients o productes i es garanteix que la informació segueixi regles consistents. En aquesta capa s’apliquen transformacions lleugeres i models que asseguren la coherència de les dades.
  • Capa Gold (dades curades): En aquesta última etapa, les dades ja estan llestes per a l’anàlisi de negoci. S’organitzen en models optimitzats per a casos concrets com vendes, màrqueting o recomanacions de productes. A més, s’hi apliquen regles estrictes de qualitat i es construeixen data marts especialitzats que permeten als equips de negoci obtenir informació directa i accionable.

Aquest patró de capes té un gran avantatge: assegura la traçabilitat de les dades. Sempre és possible reconstruir qualsevol taula o model a partir de la informació original a Bronze. D’aquesta manera, es combina la flexibilitat de tenir les dades en brut amb la fiabilitat de disposar de versions validades i preparades per a la presa de decisions.

 

Data Warehouse vs. Data Lake vs. Data Lakehouse


Per entendre què aporta un data lakehouse, és útil comparar-lo amb els seus predecessors: el data warehouse (magatzem de dades) i el data lake (llac de dades). Cada un va néixer per resoldre una necessitat concreta, però també amb les seves limitacions.

Comparació: Data Warehouse, Data Lake i Data Lakehouse

Tecnologia Ús principal Avantatges clau Limitacions
Data Warehouse Analitzar dades estructurades i donar suport a BI (business intelligence). Alt rendiment en consultes SQL; dades de qualitat; transaccions segures (ACID). Cost elevat; difícil d’escalar; només admet dades molt estructurades.
Data Lake Emmagatzemar grans volums de dades en brut (estructurades, semiestructurades i no estructurades). Escalable i econòmic; gran flexibilitat per guardar qualsevol tipus de format. No ofereix transaccions fiables; manca de governança; accés més lent.
Data Lakehouse Plataforma unificada que dona suport a anàlisi, operacions i aplicacions d’IA. Reuneix el millor dels dos mons: emmagatzematge barat amb gestió de dades, transaccions i alt rendiment. Evita duplicar processos ETL i facilita el machine learning. Tecnologia encara en evolució; requereix adoptar nous patrons (com el model Medallion) i eines especialitzades.

 

Data Lakehouse a Microsoft Fabric

Al núvol, l’enfocament lakehouse simplifica de manera notable els fluxos de dades. Els equips ja no necessiten mantenir dues infraestructures separades —una per emmagatzemar dades en brut i una altra per analitzar-les—. Amb un lakehouse n’hi ha prou amb ingerir les dades una sola vegada i habilitar, a partir d’elles, múltiples usos: des de dashboards de BI fins a anàlisis predictives, machine learning o projectes d’intel·ligència artificial.

El concepte de lakehouse va ser impulsat inicialment per companyies pioneres com Databricks, i aviat els grans proveïdors de núvol el van incorporar als seus serveis. Entre ells, Microsoft destaca amb Microsoft Fabric, que inclou un component natiu de Lakehouse pensat per oferir anàlisis unificades en una mateixa plataforma.

El data lakehouse a Microsoft Fabric representa l’evolució natural de la gestió de dades al núvol. Gràcies a aquesta arquitectura, els fluxos de treball es tornen més simples, flexibles i eficients, cosa que permet a les organitzacions respondre amb rapidesa a les necessitats actuals i accelerar la innovació.

SQL Analytics Endpoint de Microsoft Fabric

Un dels avantatges més pràctics és que, en crear una lakehouse a Microsoft Fabric, es genera automàticament un endpoint de SQL analític. Aquest recurs ofereix una interfície relacional de només lectura sobre les taules Delta, que permet:

  • Executar consultes en T-SQL de manera senzilla.
  • Crear models semàntics directament per a Power BI.

A la pràctica, això significa que els usuaris de negoci poden accedir a les dades amb eines familiars, sense haver d’enfrontar-se a la complexitat tècnica que hi ha darrere de l’arquitectura lakehouse.

Beneficis clau d’un Data Lakehouse

Adoptar un data lakehouse aporta avantatges significatius per a les organitzacions que volen simplificar la seva gestió de dades i obtenir-ne més valor. Entre els beneficis més destacats hi trobem:

1. Dades unificades i sense duplicats

Un lakehouse consolida tota la informació en una sola plataforma, evitant silos i còpies innecessàries. Això facilita treballar amb una única “font de la veritat”, assegurant que tots els equips consultin les mateixes dades actualitzades i fiables.

2. Reducció de costos

Aprofita l’emmagatzematge econòmic al núvol (com AWS S3 o Azure Data Lake) i elimina la necessitat de mantenir infraestructures separades per a emmagatzematge i anàlisi. D’aquesta manera, es redueixen de forma significativa els costos respecte dels data warehouses tradicionals.

3. Suport per a tot tipus d’anàlisi

Un lakehouse ben dissenyat permet treballar amb diferents escenaris: des d’informes de negoci i visualització fins a ciència de dades, machine learning o analítica avançada de dades. Tot passa sobre les mateixes dades, sense haver-les de moure entre sistemes.

4. Més governança i qualitat de dades

A diferència dels data lakes tradicionals, el lakehouse incorpora mecanismes d’organització i governança. Això significa que les dades es validen segons regles i polítiques abans de ser considerades “fiables”, evitant que la plataforma esdevingui un repositori caòtic.

5. Escalabilitat i alt rendiment

Al núvol, el lakehouse separa l’emmagatzematge del processament. Així és possible escalar de manera flexible: diferents motors (SQL, Spark, etc.) poden treballar en paral·lel sobre les mateixes dades, sense duplicar-les ni generar bloquejos.

6. Dades en temps real

El lakehouse està preparat per gestionar fluxos de dades en streaming, com els que generen sensors IoT, aplicacions o registres d’activitat. Això permet anàlisis i respostes en temps real, clau per a sectors que requereixen immediatesa en la informació.

 

Tendències futures: Lakehouse 2.0

El món de les dades està en constant transformació. Així com els data warehouses tradicionals van donar pas als data lakehouses, ja es comencen a albirar els primers passos cap a una nova generació coneguda com a Lakehouse 2.0. Aquesta evolució busca superar les limitacions de la primera onada de lakehouses i adaptar-se als reptes actuals: més obertura, més modularitat i anàlisi en temps real.

Ecosistemes més oberts i flexibles

Una de les principals tendències és l’auge dels formats de taula oberts com Apache Iceberg, Delta Lake o Apache Hudi. Aquests formats permeten que diferents motors i plataformes treballin sobre les mateixes dades, sense dependre d’un únic proveïdor. El resultat és un ecosistema més flexible, on emmagatzematge i còmput es desacoblen i les organitzacions poden triar lliurement les eines que millor s’adaptin a les seves necessitats.

Capes semàntiques integrades

Una altra innovació clau és la incorporació de models semàntics unificats dins del mateix lakehouse. Això significa que mètriques, indicadors i regles de negoci deixen de definir-se de manera aïllada en cada eina de BI. En el seu lloc, tota l’organització utilitza un únic model centralitzat, assegurant que els KPIs es calculin sempre de la mateixa manera i evitant reprocesaments innecessaris.

Data contracts i confiança entre equips

El Lakehouse 2.0 també impulsa la idea dels data contracts: acords formals entre qui genera les dades i qui les consumeix. Aquests contractes estableixen quin format, qualitat i freqüència han de tenir les dades, cosa que aporta més confiança, transparència i col·laboració entre equips.

Aposta de proveïdors i comunitat open-source

Les grans tecnològiques i la comunitat open-source ja estan impulsant aquest nou paradigma:

  • Microsoft ha llançat Fabric, una plataforma que integra data engineering, data warehousing i data lakes en un únic servei amb el lakehouse com a pilar central.
  • Databricks continua evolucionant amb la seva Lakehouse Platform, incorporant catàlegs unificats (Unity Catalog), eines avançades de governança i capacitats de machine learning sobre el mateix repositori de dades.
  • Google ofereix BigLake, que combina la potència de BigQuery amb la flexibilitat dels data lakes en una sola capa unificada.

 

Conclusió: el Lakehouse com a pilar de l’estratègia de dades moderna

El data lakehouse es consolida com la base de l’arquitectura de dades moderna. La seva capacitat per unificar informació de diferents fonts, escalar sense límits al núvol i oferir un accés flexible per a múltiples usos analítics el converteix en una peça clau en l’era del Big Data i la intel·ligència artificial.

Quan es combina amb enfocaments com el data mesh i pràctiques com l’arquitectura Medallion, el lakehouse permet que les organitzacions siguin veritablement data-driven: extreuen valor de les seves dades de manera més ràpida, segura i col·laborativa.

Per a les empreses que aspiren a liderar en l’economia digital, invertir en una estratègia de data lakehouse amb bones pràctiques de data quality i data governance ja no és opcional, sinó una decisió estratègica que marca la diferència. La clau està a transformar les dades en un avantatge competitiu real, i a comunicar aquest valor de manera clara i efectiva, unint la visió tècnica amb un llenguatge accessible que connecti amb tots els nivells de l’organització.