Blog de Bismart: Últimes Notícies en Dades, IA i Business Intelligence

Optimització del data onboarding amb data wrangling a Azure

Written by Maria Gorini | 16/03/2020 23:00:00

El data onboarding és un procés pel qual dades offline, com ara noms, adreces de correu, adreces físiques i números de telèfon, es transfereixen a un entorn online per poder-los tractar amb business intelligence. Es fa servir per relacionar clients offline amb usuaris online a partir de la relació de la informació aconseguida de totes dues maneres, per la qual cosa és una pràctica molt utilitzada en l'àmbit del marketing intelligence.

L'onboarding requereix diversos processos, com la ingesta, anonimització, relació i distribució de dades i pot millorar dràsticament la comprensió i atribució del màrqueting multicanal, ampliar la mida del públic objectiu i millorar el rendiment de les campanyes.

Com que tracta amb dades offline, el data onboarding requereix un pas molt important, que és el d'aconseguir que les dades generades per canals analògics arribin a estar en el format més adequat per poder analitzar-les i dur a terme les estratègies de marketing intelligence. Per això, fem ús del data wrangling.

Què és el data wrangling?

El data wrangling és un procés de transformació de dades pel qual canvien de format perquè siguin més apropiades i valuoses. És a dir, és la manera d'aconseguir que les dades en brut estiguin en el format i condicions adequades per poder utilitzar-les per a altres processos, com ara machine learning o anàlisi de dades.

Alguns usos d'aquest procés poden ser la visualització de dades, agregació de dades o entrenament de models estadístics o, com comentàvem, el marketing intelligence, entre d'altres, i els resultats serveixen als arquitectes de dades o als data scientists per analitzar-los amb més profunditat. Un altre ús de les dades tractades d'aquesta manera són els informes que consumeixen els empresaris o el processament de dades per sistemes que les emmagatzemen en data warehouses o data lakes.

Concretament, alguns beneficis del procés de data wrangling són proveir als analistes de dades precises i útils, reduir el temps invertit en recopilar i ordenar les dades, permetre que els professionals se centrin només en l'anàlisi i no en altres processos de transformació de dades i fomentar la presa de decisions millors en un temps menor.

Data wrangling a Microsoft Azure

Azure permet dissenyar, crear i gestionar ràpidament data flows que s'executen a escala amb el rendiment necessari per preparar les dades per a anàlisi. Les funcions incloses de data wrangling inclouen gestió de columnes, filtres de fila, afegir i transformar columnes, unir taules, agrupar, classificar i reduir files, entre d'altres.

Azure permet posar en funcionament els fluxos de dades variables com un pas del procés ETL end-to-end, emprant un entorn visual drag and drop. La solució de data wrangling ha de fomentar els processos iteratius d'organització, publicació i monitorització alhora que ha de permetre la personalització.

A més, una solució de data wrangling ben integrada amb Azure Data Catalog proporciona llinatge de dades i traçabilitat per a fluxos de treball de transformació de dades, la qual cosa garanteix el compliment de lleis i normatives i l'auditabilitat de la companyia.

Per l'estalvi de temps que suposa, la seva bona integració i eficiència, Azure és la plataforma adequada per dur a terme els teus processos de data wrangling, ja que permet preparar les dades a escala cloud sense necessitat d'escriure codi. Azure ofereix la possibilitat de dur a terme aquests processos de manera self-service, la qual cosa redueix la quantitat de recursos necessaris per dur-los a terme i apropa els processos d'ETL als espais BI corporatius.