El Big Data ha transformat la forma en què les dades es gestionen i emmagatzemen, introduint noves demandes pel que fa al processament tradicional d'emmagatzematge de dades. Amb el temps, els nous requisits de volum i velocitat han transformat els processos ETL cap a una nova perspectiva: ELT.
Com ja expliquem en l'article "Què és ELT i quines són les diferències amb ETL?", en els últims anys ha sorgit una nova manera d'abordar els processos ETL.
ETL —Extract (Extreure), Transform (Transformar) & Load (Carregar)— és un procés de càrrega, emmagatzematge i integració de dades que porta en funcionament des dels anys 70, sent el mètode habitual per a integrar dades de múltiples fonts d'origen en un únic data warehouse. En un procés ETL les dades s'extreuen de les fonts de dades d'origen, es transformen en una base de dades provisional i finalment es carreguen a l'enterprise data warehouse. Aquest mètode funcionava molt bé quan el data warehouse era una base de dades relacional amb esquemes predefinits, la qual cosa ha convertit ETL en el procediment predominant durant els últims 40 anys, amb una gran quantitat d'eines ETL disponibles en un mercat de milions de dòlars.
No obstant això, les noves demandes de volum, velocitat i veracitat en matèria d'integració i emmagatzematge de dades han forçat l'aparició d'una nova manera d'abordar el procés. ELT —Extract (Extreure), Load (Carregar) & Transform (Transformar)— altera l'ordre habitual del procés ETL. Amb aquest nou approach, les dades són extretes de les fonts d'origen i es carreguen directament en el magatzem de dades de destí. Així, a diferència de ETL, les transformacions en les dades es realitzen en el propi data warehouse de destí i sota demanda.
Però, què ha passat amb ETL? Per què ha sorgit ELT? Està, el procés ETL, mort?
A continuació intentem resoldre aquestes preguntes.
El terme 'Big Data' va sorgir per primera vegada a finals dels anys 90 amb la intenció de donar nom als problemes als quals s'enfrontaven les organitzacions. Concretament, l'any 1997, un grup d'investigadors de la NASA van publicar un article en el qual s'explicava que "l'augment de les dades s'estava convertint en un problema per als sistemes informàtics actuals". L'increment de dades generades va estimular l'avanç tecnològic cap a plataformes que poguessin fer front a conjunts de dades massives. L'any 2001, la companyia estatunidenca Gartner, va publicar una investigació —3D Data Management: Controlling Data Volume, Velocity and Variety— en la qual es parlava per primera vegada de les '3V' que han de tenir les tecnologies Big Data: volum, velocitat i varietat.
El Big Data va alimentar els primers desafiaments del procés ETL. El volum, la velocitat i la varietat que exigeix el Big Data va posar en dubte el funcionament de les eines ETL, en moltes ocasions incapaces de suportar el ritme que demanda el processament de conjunts de dades massives per falta de capacitat i velocitat, a banda de suposar sobrecostos.
L'aparició de nous formats de dades, fonts de dades i requisits relatius a la consolidació de les dades van manifestar la rigidesa del procés ETL, a més de canviar la forma habitual de consumir dades. La demanda de més velocitat i varietat va provocar que els consumidors de dades necessitessin accedir immediatament a les dades en brut, en lloc d'esperar que el departament d'IT els transformés i fes accessibles.
D'altra banda, el Big Data també va propiciar l'aparició del data lake, un magatzem de dades que no requereix d'un esquema predefinit, a diferència del que fins al moment havia estat el data warehouse, introduint esquemes d'emmagatzematge més flexibles.
Les eines ETL, tradicionalment construïdes pensant en la gestió per part del departament d'IT, són complicades d'instal·lar, configurar i gestionar. Així mateix, aquesta tecnologia concep la transformació de dades com una tasca intrínseca dels informàtics, dificultant el seu accés als consumidors de dades que, segons la lògica d'ETL, únicament han de poder accedir al producte final emmagatzemat en un data warehouse estandarditzat.
Com és habitual, el context va catapultar la innovació. ELT es concep com l'evolució natural d'ETL, remodelant el procés i fent-lo més apte per a treballar amb Big Data i amb serveis cloud, ja que proporciona una major flexibilitat. Així mateix, facilita l'escalabilitat, millora el rendiment i la velocitat i redueix el cost.
No obstant això, ELT també té els seus propis problemes. A diferència de les ETL, les eines ELT estan dissenyades per a facilitar l'accés a les dades als consumidors finals, la qual cosa democratitza l'accés a les dades permetent als usuaris accedir a elles des de qualsevol font de dades a través d'una URL. Tanmateix, això pot posar el risc el data governance.
Afirmar que ELT ha substituït definitivament el procés ETL és, com a mínim, poc raonable. Ara com ara, tots dos processos conviuen en un mateix entorn i, de fet, la seva combinació ja té nom: ETLT. Com és lògic, desfer-se de totes les tecnologies i inversions fetes en ETL per a invertir en ELT no és rendible per a cap corporació. D'altra banda, aquelles companyies que encara no han invertit en cap dels dos processos, han d'avaluar les seves necessitats en qüestió d'integració de dades per a decidir quina proposta els encaixa millor.
I és que, a banda de la governança de dades, ELT també presenta altres contradiccions.
Malgrat optimitzar tant la E com la L, ELT es continua quedant curt en la T. Avui en dia l'anàlisi de dades compleix un paper fonamental en les empreses. Malgrat els esforços d'aquest nou enfocament, l'anàlisi, basat en la transformació de les dades, no s'ha simplificat i continua sent competència del departament d'IT, especialment d'enginyers i científics de dades. Així mateix, transformar les dades en brut en actius preparats per a ser utilitzats pels seus consumidors continua precisant de diverses eines i processos complexos que, evidentment, els consumidors de les dades no tenen la capacitat d'abordar. D'altra banda, les múltiples eines i processos requerits per a la transformació de les dades continuen implicant les mateixes problemàtiques que ja tenia ETL pel que fa a la velocitat del procés, la quantitat de recursos necessaris i el seu cost i l'escassetat d'escalabilitat.
Per tal que ELT substitueixi definitivament ETL, les eines ELT haurien d'evolucionar. Pel que fa a la seva evolució, s'espera que en un futur pròxim aquestes eines incloguin capacitats de data governance i vagin resolent progressivament els inconvenients que encara plantegen. Forbes planteja una solució que torna a suposar un gir argumental en la història de l'extracció, transformació i emmagatzematge de les dades: EL+T.