Què fem amb les dades? - Processament de dades

Pràcticament ja ningú dubta del valor de les dades, que s'han convertit en un actiu imprescindible per a les empreses. El valor de les dades no és fortuït ni contingent. Les dades en el seu format original són com un diamant en brut. Desemmascarar el valor implica processar-les, tractar-les, transformar-les... En definitiva, un llarg procés que inclou múltiples tasques, tecnologies i disciplines.

HubSpot Video

Per a convertir una pedra en un diamant és necessari que experts en la matèria sotmetin la pedra a un procés de poliment i tallat. Per a convertir dades en valor empresarial, passa exactament el mateix.

El valor de les dades en el seu format i hàbitat original és mínim i certament insuficient perquè una empresa pugui aprofitar-les per a la presa de millors decisions basades en elles (data-driven decisions).

Se sol dir que les dades són la base de la presa de decisions empresarials. No obstant això, aquesta afirmació no és del tot certa. No són les dades en si mateixes les que ajuden a les companyies a millorar la seva activitat, sinó el coneixement que contenen i que s'amaga darrere de capes i capes de residus que necessiten ser eliminats. Les dades, igual que els diamants, han de passar per un procés de poliment i tallat per a ser d'utilitat.

A Bismart portem anys transformant dades en brut en valor empresarial. Moltes persones no són conscients o desconeixen el procés i el recorregut pel qual han de passar les dades per a ser transformats en valor.

Què fem amb les dades? Processament de dades
HubSpot Video
1. Extracció de dades

Avui en dia, les dades habiten en múltiples espais que coneixem com a fonts de dades. Amb els anys, les fonts d'origen de les dades s'han multiplicat igual que ho han fet les dades disponibles. 

Localitzar totes les fonts d'origen de les dades pot ser una tasca enutjosa, i és que les dades estan a tot arreu: plataformes analítiques, correus electrònics, bases de dades, arxius de tota mena, xarxes socials, etc.

A Bismart tenim la capacitat d'extreure i recopilar dades de qualsevol tipus de font, prioritzant les fonts d'origen que poden contenir dades útils:

  • Bases de dades estructurades i no estructurades
  • Sistemes corporatius heretats
  • Aplicacions SaaS
  • Altres aplicacions
  • Serveis d'Internet propis o externs
  • Arxius en qualsevol format
2. Ingesta de dades

Una vegada les dades han estat localitzades i extretes de les seves fonts d'origen, han de ser unificades i integrades en un únic espai. Més enllà del seu emmagatzematge en una única base de dades, l'important d'aquest procés és que les dades han de ser tractades i transformades perquè posteriorment puguin ser analitzades en conjunt. Per això, les dades s'emmagatzemen en un data lake, un tipus de base de dades que emmagatzema dades sense processar. És a dir, dades en brut.

El procés de posada en comú de les dades es coneix com a integració de dades i, a la vegada, depèn de la integració de sistemes.

 

2. Classificació de les dades

Una vegada les dades estan integrades han de ser classificades. En aquest procés es fa una primera classificació de les macrodades —grans volums de dades— en la qual les dades inútils o innecessàries són eliminades. Això es coneix com a neteja de dades.

Aquesta etapa del procés també inclou el mapping de les dades: les metadades s'agreguen i es fusionen per a poder ser mapejades. És a dir, classificades, identificades i ordenades. En el nostre conjunt de macrodades en brut trobarem moltes dades duplicades que es repeteixen en múltiples arxius amb diferent nomenclatura, format, etc. Aquestes dades han de ser identificades i agregades a una taula mestra perquè els sistemes puguin entendre que es tracta de la mateixa informació.

Per altra banda, les dades s'ordenen segons les necessitats empresarials: per àrees temàtiques, per propòsit, per períodes temporals, etc. En aquest sentit, el data management i el data governance cobren especial rellevància. La gestió de les dades és extremadament important i engloba cadascuna de les etapes del flux de dades que implica el seu processament. Les tasques de data governance i data management se solen dur a terme amb el software Azure Pureview, que facilita l'administració i el control de les dades i permet als científics de dades construir un mapa holístic i en temps real del panorama global de dades a través de processos automatitzats. 

Bàsicament, el procés de classificació de les dades consisteix a creuar, ordenar i mapejar les dades per a fer-les intel·ligibles.

3. Transformació i tractament de dades: "Wrangling Data Flow"

En anglès, el terme "data wrangling" s'utilitza per a descriure el procés de neteja i transformació de les dades. Bàsicament, quan les dades en brut han estat recopilades i emmagatzemades en el data lake, és el moment de preparar-les —netejar-les, transformar-les i gestionar-les— perquè, posteriorment, puguin ser utilitzades en projectes de business intelligence.

Les dades útils ja classificades, ordenades i mapejades s'extreuen del data lake i s'organitzen en plataformes tecnològiques d'enginyeria de dades i data science com Azure Data Factory, que permet transformar les dades, ordenar-les, agregar-les, dur a terme pipelines i dataflows, etc.

La preparació de les dades també contempla una altra eina: Azure Databricks. Databricks ens permet explorar, executar i transformar macrodades (estructurades i no estructurades). Les seves principals funcionalitats són la transformació, preparació i anàlisi de les dades que posteriorment seran traslladades a altres plataformes per al seu consum. Es tracta d'un entorn clau per a l'analítica i la transformació de les dades en informació procesable.

Tant Data Factory com Databricks són serveis intermedis entre les fonts d'origen de les dades i la seva destinació final.

4. Exportació i consum de dades

Una vegada les dades estan preparades per a ser activades, són exportades al seu destí final o temporal. En funció de l'ús que vulguem fer-ne, seran consumides per una plataforma o una altra.

Les dades es poden emmagatzemar en bases de dades de destí —habitualment un data warehouse— on seran arxivades de forma organitzada per al seu futur ús.

També poden ser consumides per eines d'anàlisis de dadesBI com Power BI, on seran analitzades i transformades en històries mitjançant la visualització de dades i la creació d'informes corporatius i quadres de comandament

També podem exportar les dades a plataformes analítiques d'intel·ligència artificialmachine learning i deep learning, o bé ser consumides per APIs, web services o transformades en arxius.

L'exportació de dades també requereix de processos com l'edge computing o procés perimetral en català. Aquest model de computació distribuïda acosta al màxim la computació i l'emmagatzematge de les dades a la font de destí per a accelerar els tempos del procés i els temps de resposta. 

L'extracció, transformació i càrrega de les dades es pot resumir en un procés ETL ELT. No obstant això, el flux de dades necessari per a extreure valor dels actius disponibles és molt més complet que un procés ETL i requereix d'operacions complementàries.

 

De la pedra al diamant: Transformació de les dades en valor empresarial

L'especialitat de Bismart és la transformació de les dades en insights de negoci i en valor accionable que permeti a les companyies optimitzar els seus processos, prendre millors decisions de negoci, augmentar la seva productivitat o dissenyar millors estratègies de customer engagement, entre moltes altres coses.

Perquè això passi, les dades han d'endinsar-se en un procés que inclou múltiples ciències, involucra diferents perfils professionals i requereix de diverses tecnologies. 

En aquest article hem descrit els passos més destacats del flux d'un processament de dades habitual. No obstant això, el processament de les dades pot variar segons les necessitats de cada empresa. De fet, hauria de fer-ho. No totes les companyies tenen les mateixes necessitats i, evidentment, el flux de dades ha d'adaptar-se a les característiques i objectius de cada escenari corporatiu.

A Bismart som especialistes a buscar la millor opció i el procés més rendible perquè puguis aprofitar les dades i transformar-les en business intelligence i valor empresarial. Ens adaptem a qualsevol tipus d'entorn i dissenyem el procés que sigui més eficaç i rendible per a tu.

 

Parlem?

DEIXA EL TU COMENTARI