Cada vegada són més els alts càrrecs empresarials que comprenen la importància de les dades. No obstant això, la qualitat de les dades continua sent una àrea per explotar i injustament poc valorada. Explorem què és data quality a través de 3 mites i una realitat sobre qualitat de dades en l'entorn empresarial.
En aquests moments, pràcticament totes les empreses treballen amb dades diàriament. L'anàlisi de dades s'ha convertit en un procés empresarial de vital importància per al bon funcionament de les operacions de negoci.
Cada vegada més empreses s'estan adonant de la importància d'aprofitar les dades corporatives i externes per a la presa de decisions informades (data-driven decisions), així com per a comprendre la seva pròpia activitat empresarial.
La veritat és que, la gran majoria de les dades empresarials no tenen la qualitat suficient com per a ser transformades en valor.
Sigui quin sigui el nivell de qualitat de les dades d'una organització, el més probable és que els alts càrrecs de l'empresa ja estiguin prenent decisions basades en elles. Si les empreses estan prenent decisions basades en dades de baixa qualitat, com poden prendre decisions encertades?
Les companyies necessiten començar a validar la qualitat de les seves dades de forma immediata i resoldre les seves limitacions de data quality com més aviat millor.
Les corporacions s'estan esforçant per digitalitzar-se i per desenvolupar una cultura data-driven i, no obstant això, ho estan fent amb dades de mala qualitat.
Aquesta contradicció situa a les companyies en una situació com a mínim perillosa que pot comprometre la seva activitat.
A Bismart solem dir que la qualitat de les teves decisions depèn de la qualitat de les teves dades.
Pero, què és exactament data quality?
Data quality, literalment qualitat de dades en català, és un terme que s'usa per a definir els estàndards de qualitat que han de complir les dades per a poder ser transformades en valor, així com els processos que intervenen a assegurar la qualitat de les dades.
Es considera que les dades són de qualitat si són aptes per al seu ús en operacions, en el procés de presa de decisions i si compleixen amb les normes de protecció de dades vigents. En aquest sentit, la qualitat de les dades està vinculada amb la data governance i amb la data compliance.
L'avaluació de la qualitat de les dades es fonamenta en diferents aspectes, com ara la precisió, la integritat, la coherència i la fiabilitat de les dades, entre altres. Els processos d'anàlisis relatius a la qualitat de les dades permeten determinar si són aptes per al seu propòsit original. Aquest mesurament resulta de gran utilitat per a les organitzacions, ja que els permet detectar errors i prendre mesures per a solucionar-los.
A la pràctica, assegurar la qualitat de les dades millora el rendiment empresarial. Segons un estudi, les empreses amb maduresa digital són un 26% més rendibles que les seves homòlogues. Mckinsey va descobrir que les empreses impulsades per la informació registren un creixement superior al del mercat i un augment del EBITDA de fins al 25%.
No obstant això, hi ha molts mites associats a la data quality que estan creant idees errònies sobre la qualitat de les dades.
Quan parlem de dades solem definir-les com un actiu empresarial. No obstant això, les dades, per si soles, manquen de valor i només arriben a ser un actiu empresarial si es processen, es gestionen bé i s'assegura la seva qualitat. En cas contrari, són un passiu empresarial. És a dir, les dades han de refinar-se o processar-se, igual que es refina el petroli cru per a fabricar gasolina.
Les dades que constitueixen un actiu empresarial són aquelles l'aprofitament de les quals té el potencial de millorar el funcionament d'una empresa: ja sigui a nivell d'ingressos, de reducció de despeses, mitigació de riscos...
Per contra, les dades solen convertir-se en un passiu per a l'empresa quan el seu volum és excessiu, quan no compleixen amb les normes de privacitat, quan no compten amb les mesures de seguretat de dades adequades i quan el seu aprofitament no resulta d'utilitat per a millorar cap aspecte del negoci.
En poques paraules, les dades només són un actiu empresarial quan la seva gestió és adequada i es valida la seva qualitat.
Un dels grans motius pels quals la gran majoria empreses no estan prou avançades en termes de data quality és que es considera una inversió poc rendible. Tot i que que pràcticament totes les empreses han invertit en solucions vinculades a les dades en els últims anys, poques han apostat per eines, programari o processos de data quality.
No és que la qualitat de les dades no sigui rendible. No obstant això, la seva rendibilitat és més difícil de visualitzar, ja que tenir dades de qualitat òptima no sol generar valor de negoci de manera immediata.
No obstant això, a llarg termini, la qualitat de les dades ofereix nombrosos beneficis, com la detecció precoç de possibles problemes vinculats a les dades abans que els usuaris els descobreixin i notifiquin, evitant així conseqüències tardanes que podrien afectar el negoci o les decisions en curs.
Un altre benefici indiscutible de comptar amb un sistema de data quality és la generació de confiança, tant en les pròpies dades com en l'equip encarregat de la seva preparació.
Finalment, però no menys important, la inclusió de processos de data quality en un projecte pot accelerar i reduir els costos de desenvolupament. La implementació d'un sistema que garanteix la qualitat de les dades de manera automàtica evita que l'equip hagi d'invertir temps a fer aquestes tasques de manera manual, la qual cosa, a la pràctica, es tradueix en una gran quantitat d'hores.
Una altra de les raons que expliquen l'escassa inversió empresarial en qualitat de dades és que molts perfils corporatius creuen, erròniament, que les seves dades ja són de qualitat o que assegurar la qualitat de les seves dades és una tasca fàcil i que, per tant, no necessiten una solució o sistema de data quality. No obstant això, cap de les dues afirmacions és certa.
Com ja s'ha comentat, únicament el 3% de les dades empresarials compleixen les expectatives de qualitat recomanades. D'altra banda, garantir la qualitat de les dades corporatives implica múltiples processos que resulten en un projecte molt més complex del que els usuaris de negoci puguin arribar a imaginar.
A banda de la quantitat de processos que implica garantir la qualitat de les dades, a la vegada, aquests processos requereixen d'un equip expert en data quality que les empreses no solen tenir en la seva plantilla. Això, de nou, suposa un altre impediment que frena a les empreses a l'hora de treballar en la qualitat de les dades.
La veritat és que, fins fa pocs anys, no existien sistemes que automatitzessin la verificació de qualitat de les dades i, per tant, el procés resultava massa gran i complex com per a abordar-lo a nivell empresarial.
Els experts en data quality porten molts anys anticipant la necessitat de concebre una solució capaç d'automatitzar la qualitat de les dades. No obstant això, fins fa poc temps, les solucions sempre havien consistit en trossos de codi fets a mesura que únicament garantien nivells de qualitat mínims.
Tot això va canviar el 2019 amb l'aparició de Great_Expectations, una solució de codi obert que permetia als desenvolupadors automatitzar els seus processos de data quality. Aquesta solució soluciona el gran hàndicap de la qualitat de dades, però continua posant la qualitat de les dades que, finalment, són explotats per usuaris de negoci, en mans d'uns pocs usuaris experts en data quality.
Automatitzar els processos de data quality sense necessitat de disposar un equip sencer d'experts en data quality ja és possible. Posar-la en mans dels usuaris de negoci també.
A Bismart portem anys treballant en processos íntegres que permetin a altres organitzacions aprofitar el potencial de les seves dades i transformar-les en millors decisions de negoci. Degut a que som conscients que sense dades de qualitat és impossible prendre decisions de qualitat, hem creat la solució Bismart Data Quality Framework.
Bismart Data Quality Framework, basada en Great_Expectations, és una tecnologia pensada per a entorns corporatius que volen treballar en la qualitat de les seves dades. La solució centralitza els processos de qualitat de dades en un únic entorn amigable que permet als usuaris de negoci validar la qualitat de les seves dades sense haver de recórrer a experts. Al cap i a la fi, els usuaris de negoci són els usuaris finals de les dades i els principals consumidors. Posar a la seva disposició una eina on poden validar que les dades amb els quals treballen són exactes, coherents, fiables, estan actualitzades i no contenen errors, és d'una importància cabdal.
A més a més, la solució permet als usuaris definir les seves pròpies regles de validació per a adaptar-les a les seves necessitats de negoci i polítiques internes.
Tots els processos de data quality en un únic entorn.
Expectatives i estàndards de qualitat personalitzats.
Admet regles de validació tant tècniques com funcionals.
Detecció automàtica d'errors.
Permet l'execució de mesures correctores.
Inclou un sistema d'alertes integrables en eines de monitoring —com Power BI— i eines de treball col·laboratiu com Microsoft Teams, qualsevol tipus d'email, etc.
Sistema obert, fàcilment extensible i personalitzable.
Conclusió
Encara queda molt de camí per recórrer per a assegurar que les dades de qualitat siguin un fet generalitzat en l'entorn empresarial.
No obstant això, el primer pas és que les empreses donin a la qualitat de les seves dades la importància que mereix. Comprendre la rellevància de les dades, és a dir, adonar-se de la seva capacitat per a resoldre un problema empresarial concret, és la base per a arribar a comprendre la importància de tenir confiança en les dades.