A mesura que la quantitat de dades generades per les empreses augmenta, les companyies requereixen d'arquitectures de dades de nova generació que els proporcionin la flexibilitat que el nou ecosistema empresarial demanda. Parlem sobre arquitectures de dades flexibles i els conceptes clau.
Segons dades de Forbes de 2023, es preveu que el volum total mundial de dades creixi de 64,2 a 181 zettabytes entre 2020 i 2025.
Per a oferir una mica de context, un zettabyte equival a un trilió de gigabytes, cosa que significa que en els pròxims dos anys estarem emmagatzemant les obres completes de William Shakespeare 178 bilions de vegades, o els 16.000 llargmetratges d'Internet Archive 125 milions de vegades.
A mesura que la quantitat de dades continua creixent, és essencial desenvolupar noves mentalitats i enfocaments per a garantir que es puguin aprofitar de manera efectiva i segura.
Per a aprofitar al màxim la captura, l'emmagatzematge i l'anàlisi de dades, és fonamental que les empreses adoptin una estratègia holística de gestió de les dades. D'altra banda, perquè aquesta estratègia es converteixi en una font sostenible de valor empresarial a llarg termini, és crucial incorporar un element cada vegada més essencial: la flexibilitat.
La flexibilitat permet a les empreses adaptar-se als canvis del mercat i les necessitats dels clients de manera ràpida i efectiva. També els permet adoptar noves tecnologies i metodologies de gestió de dades a mesura que sorgeixen, la qual cosa resulta fonamental per a mantenir-se al dia en un entorn empresarial cada vegada més competitiu.
Per aquest motiu, cada vegada més empreses estan apostant per arquitectures de dades flexibles.
En aquests moments, comptar amb una estratègia de dades corporativa és fonamental per a garantir la resiliència d'un negoci. Per a mantenir aquesta resistència i escalar les operacions de dades empresarials per a satisfer les demandes competitives del futur, és crucial adoptar una postura oberta i àgil que permeti una major flexibilitat.
Les organitzacions han de ser capaces d'aprofitar les seves dades de manera innovadora i ràpida per a poder adaptar-se i canviar de rumb segons sigui necessari per a mantenir-se competitives. Independentment de les limitacions i necessitats específiques d'una organització, una estratègia de dades flexible pot ajudar a extreure informació de qualsevol dada, ja sigui estructurat o no estructurat, en moviment o en repòs.
A mesura que s'amplien les fonts de dades i augmenta la demanda d'informació basada en dades, una estratègia centrada únicament en els objectius empresarials actuals aviat deixarà de ser útil i impedirà el progrés. En aquest sentit, introduir la flexibilitat com un element clau de l'estratègia de dades és imprescindible per a garantir que una organització estarà preparada per a satisfer noves necessitats a mesura que sorgeixin.
En definitiva, la flexibilitat és essencial per a maximitzar el valor de les dades i mantenir la competitivitat a llarg termini. L'adopció d'una estratègia de dades flexible permet a les empreses adaptar-se ràpidament als canvis i aprofitar al màxim el valor de les seves dades.
L'adopció d'arquitectures de dades flexibles per part de les empreses han introduït nous conceptes que és important conèixer.
La majoria de les organitzacions s'enfronten a una complexa i a vegades caòtica col·lecció de plataformes d'emmagatzematge i processament de dades. Amb adquisicions, noves necessitats i un creixement orgànic, una empresa típica pot tenir diverses bases de dades, data warehouses, plataformes d'anàlisis amb diferents comunitats d'usuaris i rutines de transformació de dades dictades per necessitats a curt termini en lloc d'una estratègia a llarg termini.
'Data Fabric' —teixit de dades en català— és una arquitectura de dades que unifica totes aquestes fonts de dades i aplicacions de manera segura i automatitzada, sense canviar on o com s'emmagatzemen les dades. És a dir, proporciona accés a les dades sense necessitat de migrar-les. Aquesta arquitectura connectada facilita, accelera i protegeix el desplegament d'aplicacions i automatitzacions basades en dades, i posa la informació a la disposició dels usuaris en un format self-service.
L'arquitectura 'Data Fabric' permet als usuaris finals veure les dades unificades, encara que les dades continuen estant distribuïts en diversos recursos locals i en el núvol. Aquesta arquitectura fa que la gestió de dades sigui més eficient i efectiva, la qual cosa porta a millors decisions empresarials.
En moltes ocasions, la gestió de dades es complica a causa d'una tradició arrelada de tractar les dades i la seva arquitectura com a projectes de curt termini. Fins i tot si un projecte en particular pogués tenir èxit a llarg termini, és probable que les eines i tècniques utilitzades per a implementar la solució concreta hagin estat establertes per un equip petit i enfocat en objectius específics. Amb el temps, aquest enfocament pot complicar el disseny de l'arquitectura de dades, crear normes enutjoses en tota l'organització per a l'accés i la influència sobre les dades, i dificultar la propietat i gestió d'aquests.
'Data Mesh' o 'malla de dades' en català, és un enfocament pensat per a posar solució a aquesta problemàtica, posant el focus en l'estructura, més que en la tecnologia. En un 'Data Mesh', les dades s'estableixen com a productes en lloc de com a projectes. Un equip d'experts intern s'encarrega d'un o diversos dominis de dades i estableix normes per al workflow i el lliurament de dades als usuaris finals. Per exemple, el departament de màrqueting s'encarrega de les dades de màrqueting i el departament financer agrupa les dades financeres.
En contrast amb la centralització que proporciona una arquitectura 'Data Fabric', en una arquitectura 'Data Mesh', els encarregats de cada domini de dades actuen de forma descentralitzada, però d'acord amb normes uniformes d'interoperabilitat i data governance.
Una 'malla de dades' no és una tecnologia específica o quelcom que es pugui adquirir, sinó un enfocament que abasta tant a les persones com als processos que giren entorn de les dades. És, més que res, una mentalitat que implica un canvi en la forma en què es pensa sobre les dades i la seva gestió. Si bé la tecnologia és important, només exerceix un paper de suport en la implementació d'aquest enfocament.
El terme "data lakehouse" es refereix a l'evolució recent d'un data warehouse, que combina les capacitats d'un data warehouse i un data lake. Tots dos conceptes van sorgir per a abordar les limitacions de les bases de dades tradicionals en termes de capacitat d'emmagatzematge, escalabilitat i flexibilitat.
En un data lakehouse, les dades s'emmagatzemen en brut, sense estructuració prèvia, igual que en un data lake. No obstant això, a diferència d'un data lake, les dades també es transformen i s'estructuren en un model de dades optimitzat per a consultes analítiques, similar a un data warehouse. D'aquesta manera, es poden analitzar les dades de manera eficient i en temps real.
A més, l'enfocament de data lakehouse també contempla la integració de dades en temps real, la qual cosa permet a les organitzacions accedir a dades més actualitzades per a la presa de decisions. L'ús d'arquitectures basades en el núvol també facilita l'escalabilitat i la flexibilitat de la infraestructura de dades.
Els data lakehouse posen l'accent en l'accés basat no sols en les funcions dels usuaris, sinó també en els atributs de classificació de les dades, en protocols fàcils d'examinar i modificar entorn de la governança i la retenció de dades, i en la capacitat de distribuir tant l'emmagatzematge com els recursos d'anàlisi computacional a través d'un híbrid de sistemes locals i en el núvol.
En definitiva, el data lakehouse combina el control, la precisió, l'exhaustivitat i l'estricta data governance del data warehouse, amb la llibertat, la flexibilitat i la granularitat d'un data lake.
Adoptar arquitectures de nova generació implica una evolució, no abandonar per complet els sistemes de dades existents.
No existeix un sol full de ruta per a adoptar aquests enfocaments i els primers passos dependran de les necessitats empresarials i dels llegats tècnics. La maduresa de l'organització en termes de dades i anàlisis també és un factor important en l'elecció de l'arquitectura moderna adequada. Per exemple, una empresa que maneja grans volums de dades no estructurades, però té dificultats per a extreure valor, pot optar per un data lakehouse com primer pas. Per a implementar una data mesh, es requereixen equips multifuncionals independents amb enginyers de dades, propietaris de productes de dades i científics de dades.