Les bases de dades formen part del conjunt d'eines bàsiques de qualsevol organització. Malgrat això, és habitual que només els encarregats de les dades coneguin les diferències entre les múltiples tipologies de bases de dades existents. En aquest article expliquem les diferències bàsiques entre un data warehouse i un data mart per persones no expertes.
Avui en dia resulta difícil trobar-se algú que no sàpiga què és una base de dades o que, com a mínim, no hagi sentit a parlar del concepte. Les bases de dades són ara en el món empresarial, el que les pissarres digitals en el món educatiu, si aquestes haguessin substituït completament les pissarres de guix de tota la vida. Tanmateix, és totalment normal que dins de l'organigrama empresarial, només els tècnics, analistes i científics de dades coneguin les diferències entre les diferents tipologies de bases de dades i per a què serveix cada una.
En aquest blog hem comentat prèviament les diferències entre un data warehouse i altres bases de dades, així com la diferència entre un data warehouse i un data lake. Així, hem explorat les bases de dades més habituals del món empresarial, si bé és fonamental tenir en compte el data mart, les seves funcions i usos i les diferències amb un data warehouse.
Què és un data warehouse?
La traducció literal de data warehouse és 'magatzem de dades' i certament, és exactament això, un magatzem d'integració de dades. De fet, normalment compleix la funció de magatzem de dades central d'una organització o, en altres paraules, és la base de dades on estan integrades totes les dades útils d'una companyia.
La particularitat del data warehouse és que està estructurat per facilitar l'ordre i la comprensió de les dades. Precisament per això s'utilitza tant en el món empresarial. Així mateix, no és una base de dades operacional. És a dir, les dades integrades en un data warehouse no estan pensades per a ser utilitzades imminentment, sinó que s'emmagatzemen per un ús futur.
Les dades emmagatzemades en un data warehouse provenen de múltiples fonts d'origen i poden estar en diversos formats. Una vegada emmagatzemades, poden ser organitzades per temàtiques a preferència del consumidor de dades i la informació és estructurada en vistes, processos, dimensions i mètriques —normalment en esquemes d'estrella o floc de neu—. Per altra banda, el data warehouse té la capacitat de respondre a queries complexes. Les queries són consultes realitzades pels analistes de dades amb la intenció de resoldre dubtes sobre l'activitat empresarial i exerceixen de guia en el procés de definició d'estratègies i presa de decisions.
El data warehouse està dissenyat per a facilitar la comprensió i afavorir l'anàlisi de dades, ja que s'integra amb eines de business intelligence com Power BI. A Bismart, empresa partner Power BI de Microsoft, treballem amb aquesta eina per oferir les millors capacitats tècniques als nostres clients.
Un data warehouse, doncs, és un magatzem de dades que, per les seves característiques, converteix els actius de dades en informació entenedora, organitzada, actualitzada i preparada per a ser analitzada.
Què és un data mart?
Un data mart és un subjconjunt d'una base de dades —habitualment d'un data warehouse— on les dades són emmagatzemades per una àrea del negoci concreta. És a dir, en un data mart s'integren conjunts de dades concisos i específics disposats a l'anàlisi per un departament o línia de negoci concret com, per exemple, el departament comercial.
El data mart està orientat a la consulta específica i, igual que en un data warehouse, les dades tenen una estructura clara —habitualment també en models dimensionals d'estrella o floc de neu—. La intenció de l'ús del data mart és indexar dades per facilitar les queries sobre àrees específiques del negoci i satisfer les necessitats d'un grup concret d'usuaris dins de l'empresa com, per exemple, els membres de l'equip de vendes o finances.
Data warehouse vs data mart: Diferències
La principal diferència entre ambdues bases de dades és la seva magnitud. Mentre que un data warehouse fa la funció de base de dades global d'un negoci i emmagatzema dades referents a qualsevol aspecte relacionat amb l'empresa, un data mart recopila una quantitat de dades reduïda i de temàtica concreta, relacionades amb un departament empresarial o línia de negoci determinada. Així mateix, un data warehouse inclou dades d'una gran varietat de fonts i, en canvi, un data mart sol incloure dades de la base de dades central, és a dir, del data warehouse. Això, a la vegada, suposa que un data warehouse tingui una capacitat d'emmagatzematge molt superior a la d'un data mart i una arquitectura molt més complexa i difícil de dissenyar. Per altra banda, el procés d'implementació d'un data warehouse és molt més costós i extens —acostuma a durar entre diversos mesos a diversos anys— mentre que el d'un data mart es pot resoldre en pocs mesos, ja que té una estructura més simple i reuneix una quantitat de dades menor.
Seguint amb l'exemple del món educatiu, es podria dir que un data warehouse és el lloc on es guarden tots els documents d'un centre educatiu, mentre que un data mart seria l'indret on cada professor o grup de professors guarda la documentació relativa a la seva assignatura.
A continuació, explorem més detalladament les principals distincions entre un data warehouse i un data mart segons diversos criteris:
En definitiva, un data warehouse és una base de dades central amb facultats de connectar amb pràcticament qualsevol font de dades i amb grans capacitats d'emmagatzematge. Un data mart, en canvi, és una subàrea d'un data warehouse, de capacitat d'emmagatzematge reduïda i orientada a resoldre els dubtes dels consumidors de dades respecte a una àrea del negoci concreta.