Els data lake i els data warehouse s’utilitzen de forma generalitzada per l’emmagatzematge de big data però, encara que tots dos són magatzems de dades, no són termes intercanviables. Un data lake o "llac de dades" és un gran conjunt de dades en brut, que encara no té una finalitat definida. En canvi, un data warehouse o "magatzem de dades" és un dipòsit de dades que ja estan estructurades i filtrades i han estat processades per un objectiu concret.
Aquests dos tipus d’emmagatzematges de dades es confonen sovint, però són més diferents del que pot semblar a simple vista. De fet, l'única cosa que tenen en comú és que contenen grans quantitats de dades.
És important fer aquesta distinció, ja que els data lake i els data warehouse tenen propòsits diferents. Per tant, requereixen un enfocament diferent per ser optimitzats adequadament.
Les diferències entre el data lake i el data warehouse
Algunes de les diferències principals són l’estructura de les dades, els mètodes de processament, en quin àmbit s’utilitzen i quina és la finalitat de les dades.
Així, un data lake emmagatzema dades sense processar i que encara no tenen una finalitat determinada. Els seus usuaris finals són els científics de dades i la seva accessibilitat és elevada. A més, a un data lake, justament degut a aquesta fàcil accessibilitat, es poden actualitzar les dades ràpidament.
Per altra banda, un data warehouse inclou dades processades i que ja s’estan utilitzant i que, per tant, tenen una finalitat concreta. Els usuaris finals d’un DW són, normalment, empresaris i persones de negocis i és més complicat realitzar canvis.
Beneficis de cada tipus d’emmagatzematge
La diferència que més allunya ambdós conceptes és, segurament, l’estructura variable de les dades en brut. Les dades processades, en canvi, són estables. Com que els data lake són els que solen emmagatzemar aquestes dades en brut, la seva capacitat d’emmagatzematge ha de ser superior a les d’un data warehouse. Tenir aquestes dades en brut té molts beneficis, com poder analitzar-les ràpidament i per a qualsevol propòsit. Tot i això, si no existeixen les mesures adequades de qualitat i govern de dades, els data lake poden convertir-se en una espècie de contenidor intractable de dades del qual se’n pot treure poc valor.
Els beneficis d’un data warehouse també són interessants: com que només emmagatzemen dades processades, estalvien molt espai d’emmagatzematge, cosa que es tradueix en un estalvi de diners. A més, com que estan processades, les dades són molt més comprensibles i es tornen accessibles per un públic menys tècnic.
Més enllà del seu propòsit d’emmagatzematge, aquests dos conceptes són bastant diferents. Els data lakes, pel seu contingut no estructurat, poden ser complicats de navegar i requereixen d'un científic de dades, mentre que els data warehouse són més indicats per ser utilitzats en una empresa per part d’usuaris menys tècnics. Per totes aquestes diferències, cada empresa ha de valorar amb els experts quin dels dos tipus els convé més segons per a què seran utilitzats.