Si bien el proceso ETL sigue siendo una pieza clave para el traslado y transformación de datos en el mundo empresarial, en los últimos años ha surgido una nueva tendencia: ELT. Hablamos de las diferencias entre ambas y de cuál es la mejor opción según el tipo de datos y lo que se quiera hacer con ellos.
Recientemente el proceso está siendo enfocado desde una nueva perspectiva que altera la secuencia habitual del pipeline, intercambiando el orden de transform y load. Así, en un proceso ELT primero se extraen los datos, luego se cargan a un único almacén de datos —aquí entra la relevancia de los data lake— y, una vez integrados en el data lake se realizan bajo demanda las transformaciones necesarias (filtrados, agregaciones, normalizaciones, ordenaciones, combinaciones de datos, limpieza y validación de datos, etc.).
Ambas formas de operar constituyen una parte esencial de un proceso de integración de datos necesario para que las organizaciones puedan analizar sus datos, transformarlos en valor y tomar mejores decisiones basadas en ellos.
ELT no debe entenderse como una herramienta sustitutoria. ELT no ha llegado para reemplazar completamente a ETL —un proceso que sigue siendo fundamental y mayoritario en el mundo empresarial—. Ambos procesos son complementarios y resultarán más o menos beneficiosos respecto al otro según la tipología y cantidad de datos que se quieren extraer, transformar y cargar y lo que se quiera hacer con ellos. De hecho, ya hay quienes hablan del proceso ETLT (extraer, transformar, cargar y transformar) como una combinación de ambos.
Sin duda, uno de los factores que ha contribuido al crecimiento de ELT es el paulatino crecimiento del uso de los almacenes de datos en la nube que, entre otras cosas, no requieren de la compra de hardware ni de la instalación de softwares, permiten una escalabilidad dinámica de la cantidad de nodos, separan el almacenamiento de la computación, admiten queries (consultas) en paralelo, ofrecen almacenaje de datos ilimitados y facilitan la recuperación de datos. Todo esto hace de los almacenes cloud la opción ideal para transformar datos sin deteriorar el rendimiento de las queries.
A priori, la diferencia entre ELT y ETL es el orden en el que se suceden las operaciones del proceso, pero, a la práctica, en la mayoría de los casos, la extracción, transformación y carga de los datos se lleva a cabo de forma paralela para acelerar el proceso. La distinción principal, pues, recae en la ubicación en la que se realizan las transformaciones de datos.
En el proceso ETL las transformaciones se llevan cabo durante el tránsito de los datos de diversas fuentes de origen a un solo data warehouse o data mart. Las transformaciones, pues, deben realizarse en un almacén de datos temporal que requiere de un motor especializado. En ELT, en cambio, la transformación se da en el almacén de datos de destino o back-end y, en lugar de usar un motor de transformación independiente, es el propio almacén de datos de destino el que tiene capacidades para realizar transformaciones en los datos. La arquitectura de ELT, por tanto, es más simple que la de ETL.
En ELT, los datos se extraen de las fuentes de origen y se introducen directamente en el almacén de datos back-end, en una staging area donde, a continuación, la transformación se pone en marcha. El proceso de transformación trabaja con datos raw (en bruto) y finalmente copia los datos ya procesados en un área separada. Los datos en bruto, pues, son cargados directamente en el data warehouse de destino, donde es necesario garantizar la seguridad de los datos.
Para que ELT funcione de forma eficiente, es necesario disponer de las capacidades de procesamiento y computación para realizar transformaciones, lo que a la práctica implica el uso de tecnologías como Azure Data Lake, Azure Databricks o Azure Synapse Analytics. Además, se requiere de un entorno escalable que permita a las compañías adquirir más espacio a medida que lo vayan necesitando. En este sentido, Azure es la opción óptima, pues herramientas como Azure Data Factory son de pago por uso.
Todo esto agudiza uno de los grandes puntos fuertes de ELT y el motivo por el cual muchas organizaciones están apostando por este nuevo enfoque: la mayor velocidad. En ETL, la velocidad de inserción o actualización de datos no es elevada y la modificación de los datos se realiza principalmente mediante procesos manuales o por lotes. En cambio, en ELT la velocidad de ingesta de datos es mucho más rápida, ya que el pipeline no acarrea con operaciones pesadas y elude un paso indispensable en ETL: la copia de los datos.
Además de aligerar el proceso y conseguir mayor velocidad, ELT realiza todo el procesamiento en el lenguaje nativo del almacén de datos de destino, en lugar de hacerlo en el lenguaje nativo del ETL. Asimismo, al optar por ELT gran parte de los requerimientos de las herramientas ETL desaparecen, lo que puede suponer un ahorro de costes.
Por otro lado, cargar los datos antes de transformarlos (ELT) aporta flexibilidad a los analistas de datos que no tienen por qué decidir qué quieren hacer con ellos antes de cargarlos y, en cambio, pueden efectuar las transformaciones en el momento en el que estas sean requeridas. Esto, a la práctica significa que los analistas pueden cargar los datos sin tener que determinar previamente su estructura. Por el contrario, ETL es un proceso más rígido en el cual las transformaciones suelen conllevar el uso de tablas de almacenamiento temporal y recuperar los datos originales resulta más complicado, cosa que podría llegar a ser perjudicial para el área de business intelligence en caso de que sea necesario variar las operaciones realizadas en los datos, el enfoque del análisis o el uso de los datos.
El rendimiento del proceso dependerá de las características de cada organización y de sus activos de datos.
Si tu compañía ya dispone de un sistema ETL que funciona óptimamente y sin problemas, no hay necesidad ninguna necesidad de cambiarlo. Si, por el contrario, la empresa va a trabajar con nuevos almacenes de datos, empezar a jugar con herramientas ELT y almacenes de datos cloud podría ser interesante.
La estrategia de ELT no está asociada a una herramienta concreta, si no más bien a una arquitectura. Herramientas clásicas de integración de datos como SSIS pueden integrarse dentro del ciclo ELT. Esto puede facilitar la migración entre ambas. Explorar el uso paralelo de ambas herramientas (ETLT), además, puede suponer un aumento de valor. En este caso, una herramienta ELT puede extraer datos de varios sistemas de origen y almacenarlos en un data lake —compuesto por Data Factory, Databricks y SQL—. EL proceso ETL, a su vez, puede extraer los datos del data lake, transformarlos y cargarlos en un almacén de datos para la elaboración de informes.
Queda claro, pues, que ELT resuelve algunas de las problemáticas de ETL y que, esta nueva perspectiva ha llegado para quedarse. Sin embargo, afirmar que ELT es el sustituto de ETL sería un atrevimiento, pues ambas opciones tienen sus pros y contras y su rendimiento dependerá de los atributos y particularidades de cada organización y de sus activos de datos. El futuro dirá cuál será el siguiente paso para ETL, ELT y ETLT.
Antes de irte...
No te pierdas nuestra guía con 8 consejos clave para tomar mejores decisiones basadas en analítica de datos.