Descobreix què és ELT, la nova tendència d'ETL. Parlem de les seves diferències i de quina hauries d'escollir segons les característiques del teu negoci.
Si bé el procés ETL segueix sent una peça clau pel trasllat i transformació de dades dins del món empresarial, en els últims anys ha sorgit una nova tendència: l'ELT. Parlem de les diferències entre ambdues i de quina és la millor opció segons el tipus de dades i el que es vulgui fer amb elles.
En aquest blog hem parlat en nombroses ocasions dels processos ETL, per què serveixen i quins beneficis suposen. Extract (Extreure), Transform (Transformar) and Load (Carregar) és un procés d'integració i transformació de dades molt habitual en el món empresarial perquè, entre altres coses, fomenta la seguretat, qualitat i traçabilitat de les dades.
Recentment el procés està sent enfocat des d'una nova perspectiva que altera la seqüència habitual del pipeline, intercanviant l'ordre de transform i load. Així, en un procés ELT primer s'extreuen les dades, llavors es carreguen en un únic magatzem de dades —aquí pren rellevància el data lake— i, una vegada integrats al data lake, es realitzen sota demanda les transformacions necessàries (filtratges, agregacions, normalitzacions, ordenacions, combinacions de dades, neteja i validació de dades, etc.).
Totes dues maneres d'operar constitueixen una part essencial d'un procés d'integració de dades necessari perquè les organitzacions puguin analitzar les seves dades, transformar-los en valor i prendre millors decisions basades en elles.
- T'interessa prendre millor decisions a partir de l'analítica de dades? No et perdis la nostra guia en la qual trobaràs les 8 claus per a prendre data-driven decisions.
És ELT el futur d'ETL?
L'ELT no s'ha d'entendre com una eina substitutòria. L'ELT no ha arribat per reemplaçar completament a l'ETL —un procés que segueix sent fonamental i majoritari en el món empresarial—. Ambdós processos són complementaris i resultaran més o menys beneficiosos respecte a l'altre segons la tipologia i quantitat de dades que es vulguin extreure, transformar i carregar i el que es vulgui fer amb elles. De fet, ja hi ha qui parla del procés ETLT (extreure, transformar, carregar i transformar) com una combinació d'ambdues.
Sense dubte, un dels factors que ha contribuït al creixement de l'ELT és el gradual creixement de l'ús de magatzems de dades al núvol que, entre altres coses, no requereixen la compra de hardware ni la instal·lació de softwares, permeten una escalabilitat dinàmica de la quantitat de nodes, separen l'emmagatzematge de la computació, admeten queries (consultes) en paral·lel, ofereixen emmagatzematge de dades il·limitades i faciliten la recuperació de les dades. Tot això fa dels magatzems cloud l'opció ideal per transformar dades sense deteriorar el rendiment de les queries.
ETL i ELT: diferències
A priori, la diferència entre ELT i ETL és l'ordre en el qual es succeïxen les operacions del procés, però, a la pràctica, en la majoria dels casos, l'extracció, transformació i càrrega de les dades es duu a terme de forma paral·lela per accelerar el procés. La distinció principal, doncs, recau en el lloc on es realitzen les transformacions de dades.
En el procés ETL les transformacions es duen a terme durant el trànsit de dades de diverses fonts d'origen a un únic data warehouse o data mart. Les transformacions, doncs, s'han de realitzar en un magatzem de dades temporal que requereix un motor especialitzat. A l'ELT, en canvi, la transformació té lloc en el magatzem de dades de destí o back-end i, en lloc d'utilitzar un motor de transformació independent, és el mateix magatzem de dades de destí el que té capacitats per realitzar transformacions. L'arquitectura de l'ELT, per tant, és més senzilla que la de l'ETL.
A l'ELT les dades s'extreuen de les fonts d'origen i s'introdueixen directament al magatzem de dades back-end, en una staging area on, a continuació, la trasnformació es posa en marxa. El procés de transformació treballa amb dades raw (en brut) i finalment copia les dades ja processades en una àrea separada. Les dades en brut, doncs, són carregades directament al data warehouse de destí, on és necessari garantir la seguretat de les dades.
Per tal que l'ELT funcioni de forma òptima, és necessari disposar de les capacitats de processament i computació per realitzar transformacions, cosa que a la pràctica implica l'ús de tecnologies com Azure Data Lake, Azure Databricks o Azure Synapse Analytics. A més a més, cal un entorn escalable que permeti a les companyies adquirir més espai a mesura que sigui necessari. En aquest sentit, Azure és la millor opció, ja que eines com Azure Data Factory són de pagament per ús.
Tot això aguditza un dels grans punts forts d'ELT i el motiu pel qual moltes organitzacions estan apostant per aquest nou enfocament: la velocitat superior. En un procés ETL la velocitat d'inserció o actualització de dades no és elevada i la modificació de les dades es realitza principalment mitjançant processos manuals o per lots. En canvi, a l'ELT la velocitat d'ingesta de dades és molt més ràpida, ja que el pipeline no ha de carregar amb operacions pesades i evita un pas indispensable en ETL: la còpia de les dades.
Avantatges d'ELT
A banda d'alleugerar el procés i aconseguir una major velocitat, ELT realitza tot el processament en el llenguatge natiu del magatzem de dades back-end en lloc de fer-ho en el llenguatge natiu d'ETL. Així mateix, en optar per ELT, gran part dels requeriments de les eines ETL desapareixen, cosa que pot suposar una reducció de despeses.
Per altra banda, carregar les dades abans de transformar-les (ELT) aporta flexibilitat als analistes de dades que no tenen per què decidir què volen fer amb elles abans de carregar-les i, en canvi, poden efectuar les transformacions en el moment en què aquestes siguin necessàries. Això, a la pràctica significa que els analistes poden carregar les dades sense determinar prèviament la seva estructura. Al contrari, ETL és un procés més rígid en el qual les transformacions solen implicar l'ús de taules d'emmagatzematge temporal i recuperar les dades originals resulta més complicat, cosa que podria arribar a ser perjudicial per a l'àrea de business intelligence, en cas que sigui necessari variar les operacions realitzades en les dades, l'enfocament de l'anàlisi o l'ús de les dades.
Quina opció escollir?
El rendiment del procés dependrà de les característiques de cada organització i dels seus actius de dades.
Si la teva companyia ja disposa d'un sistema ETL que funciona òptimament i sense problemes, no hi ha cap necessitat de canviar-lo. Si, al contrari, l'empresa treballarà amb nous magatzems de dades, començar a jugar amb eines ELT i magatzems de dades cloud podria ser interessant.
L'estratègia d'ELT no està associada a una eina concreta, sinó més aviat a una arquitectura. Eines clàssiques d'integració de dades com SSIS poden integrar-se dins del cicle ELT. Això pot facilitar la migració entre elles. Explorar l'ús paral·lel d'ambdues eines (ETLT), a més, pot suposar un augment de valor. En aquest cas, una eina ELT pot extreure dades de diversos sistemes d'origen i emmagatzemar-los en un data lake—compost per Data Factory, Databricks i SQL—. El procés ETL, així mateix, pot extreure les dades del data lake, transformar-les i carregar-les en un magatzem de dades per a l'elaboració d'informes.
Queda clar, doncs, que ELT resol algunes de les problemàtiques d'ETL i que, aquesta nova perspectiva ha arribat per a quedar-se. Tot i això, afirmar que ELT és el substitut d'ETL seria un atreviment, ja que totes dues opcions tenen els seus pros i contres i el seu rendiment dependrà de les particularitats de cada organització i dels seus actius de dades. El futur dirà quin és el següent pas per ETL, ELT i ETLT.
Abans de marxar...
No et perdis la nostra guia amb 8 consells clau per a prendre decisions de negoci basades en dades!