Las arquitecturas de datos flexibles de nueva generación han introducido nuevos conceptos clave como Data Fabric, Data Mesh o Data Lakehouse.

A medida que la cantidad de datos generados por las empresas aumenta, las compañías requieren de arquitecturas de datos de nueva generación que les proporcionen la flexibilidad que el nuevo ecosistema empresarial demanda. Hablamos sobre arquitecturas de datos flexibles y sus conceptos clave.

fluido-data-mesh-data-fabric

Según datos de Forbes de 2023, se prevé que el volumen total mundial de datos crezca de 64,2 a 181 zettabytes entre 2020 y 2025.

Para ofrecer un poco de contexto, un zettabyte equivale a un trillón de gigabytes, lo que significa que en los próximos dos años estaremos almacenando las obras completas de William Shakespeare 178 billones de veces, o los 16.000 largometrajes de Internet Archive 125 millones de veces.

A medida que la cantidad de datos sigue creciendo, es esencial desarrollar nuevas mentalidades y enfoques para garantizar que se puedan aprovechar de manera efectiva y segura

Para aprovechar al máximo la captura, el almacenamiento y el análisis de datos, es fundamental que las empresas adopten una estrategia holística de gestión de los datos. Por otro lado, para que esta estrategia se convierta en una fuente sostenible de valor empresarial a largo plazo, es crucial incorporar un elemento cada vez más esencial: la flexibilidad.

La flexibilidad permite a las empresas adaptarse a los cambios del mercado y las necesidades de los clientes de manera rápida y efectiva. También les permite adoptar nuevas tecnologías y metodologías de gestión de datos a medida que surgen, lo que resulta fundamental para mantenerse al día en un entorno empresarial cada vez más competitivo.

Por este motivo, cada vez más empresas están apostando por arquitecturas de datos flexibles

¿Aún no cuentas con una estrategia de datos definitiva? Descárgate nuestro e-book en el que encontraras las claves para construir una estrategia de datos: 

Descarga el e-book

La importancia de la flexibilidad en una arquitectura de datos

En estos momentos, contar con una estrategia de datos corporativa es fundamental para garantizar la resiliencia de un negocio. Para mantener esta resistencia y escalar las operaciones de datos empresariales para satisfacer las demandas competitivas del futuro, es crucial adoptar una postura abierta y ágil que permita una mayor flexibilidad.

Las organizaciones deben ser capaces de aprovechar sus datos de manera innovadora y rápida para poder adaptarse y cambiar de rumbo según sea necesario para mantenerse competitivas. Independientemente de las limitaciones y necesidades específicas de una organización, una estrategia de datos flexible puede ayudar a extraer información de cualquier dato, ya sea estructurado o no estructurado, en movimiento o en reposo.

A medida que se amplían las fuentes de datos y aumenta la demanda de información basada en datos, una estrategia centrada únicamente en los objetivos empresariales actuales pronto dejará de ser útil e impedirá el progreso. En este sentido, introducir la flexibilidad como un elemento clave de la estrategia de datos es imprescindible para garantizar que una organización estará preparada para satisfacer nuevas necesidades a medida que surjan.

En definitiva, la flexibilidad es esencial para maximizar el valor de los datos y mantener la competitividad a largo plazo. La adopción de una estrategia de datos flexible permite a las empresas adaptarse rápidamente a los cambios y aprovechar al máximo el valor de sus datos.

Una arquitectura de datos flexible: conceptos clave

La adopción de arquitecturas de datos flexibles por parte de las empresas han introducido nuevos conceptos que es importante conocer.

1. Data Fabric

La mayoría de las organizaciones se enfrentan a una compleja y a veces caótica colección de plataformas de almacenamiento y procesamiento de datos. Con adquisiciones, nuevas necesidades y un crecimiento orgánico, una empresa típica puede tener varias bases de datos, data warehouses, plataformas de análisis con diferentes comunidades de usuarios y rutinas de transformación de datos dictadas por necesidades a corto plazo en lugar de una estrategia a largo plazo.

'Data Fabric' tejido de datos en español es una arquitectura de datos que unifica todas estas fuentes de datos y aplicaciones dispares de forma segura y automatizada, sin cambiar dónde o cómo se almacenan los datos. Es decir, proporciona acceso a los datos sin necesidad de migrarlos. Esta arquitectura conectada facilita, acelera y protege el despliegue de aplicaciones y automatizaciones basadas en datos, y pone la información a disposición de los usuarios en un formato self-service

La arquitectura 'Data Fabric' permite a los usuarios finales ver los datos unificados, aunque los datos siguen estando distribuidos en varios recursos locales y en la nube. Esta arquitectura hace que la gestión de datos sea más eficiente y efectiva, lo que lleva a una mejor toma de decisiones empresariales.

2. Data mesh

En muchas ocasiones, la gestión de datos se complica debido a una tradición arraigada de tratar los datos y su arquitectura como proyectos de corto plazo. Incluso si un proyecto en particular pudiera tener éxito a largo plazo, es probable que las herramientas y técnicas utilizadas para implementar la solución concreta hayan sido establecidas por un equipo pequeño y enfocado en objetivos específicos. Con el tiempo, este enfoque puede complicar el diseño de la arquitectura de datos, crear normas engorrosas en toda la organización para el acceso y la influencia sobre los datos, y dificultar la propiedad y gestión de los mismos.

'Data Mesh' o 'malla de datos' en español, es un enfoque pensado para poner solución a esta problemática, poniendo el foco en la estructura, más que en la tecnología. En un 'Data Mesh', los datos se establecen como productos en lugar de proyectos. Un equipo de expertos internos se encarga de uno o varios dominios de datos y establece normas para el workflow y la entrega de datos a los usuarios finales. Por ejemplo, el departamento de marketing se encarga de los datos de marketing y el departamento financiero agrupa los datos financieras.

En contraste con la centralización que proporciona una arquitectura 'Data Fabric', en una arquitectura 'Data Mesh', los encargados de cada dominio de datos actúan de forma descentralizada, pero de acuerdo con normas uniformes de interoperabilidad y data governance.

Una 'malla de datos' no es una tecnología específica o algo que se pueda adquirir, sino un enfoque que abarca tanto a las personas como a los procesos que giran en torno a los datos. Es, más que nada, una mentalidad que implica un cambio en la forma en que se piensa acerca de los datos y su gestión. Si bien la tecnología es importante, solo desempeña un papel de apoyo en la implementación de este enfoque.

3. Data Lakehouse

El término "data lakehouse" se refiere a la evolución reciente de un data warehouse, que combina las capacidades de un data warehouse y un data lake. Ambos conceptos surgieron para abordar las limitaciones de las bases de datos tradicionales en términos de capacidad de almacenamiento, escalabilidad y flexibilidad.

En un data lakehouse, los datos se almacenan en bruto, sin estructuración previa, al igual que en un data lake. Sin embargo, a diferencia de un data lake, los datos también se transforman y se estructuran en un modelo de datos optimizado para consultas analíticas, similar a un data warehouse. De esta manera, se pueden analizar los datos de forma eficiente y en tiempo real.

Además, el enfoque de data lakehouse también contempla la integración de datos en tiempo real, lo que permite a las organizaciones acceder a datos más actualizados para la toma de decisiones. El uso de arquitecturas basadas en la nube también facilita la escalabilidad y la flexibilidad de la infraestructura de datos.

Los data lakehouse hacen hincapié en el acceso basado no sólo en las funciones de los usuarios, sino también en los atributos de clasificación de los datos, en protocolos fáciles de examinar y modificar en torno a la gobernanza y la retención de datos, y en la capacidad de distribuir tanto el almacenamiento como los recursos de análisis computacional a través de un híbrido de sistemas locales y en la nube.

En definitiva, el data lakehouse combina el control, la precisión, la exhaustividad y la estricta data governance del data warehouse, con la libertad, la flexibilidad y la granularidad de un data lake.

Arquitecturas de datos de nueva generación

Adoptar arquitecturas de nueva generación implica una evolución, no un abandono completo de los sistemas de datos existentes.

No existe una sola hoja de ruta para adoptar estos enfoques y los primeros pasos dependerán de las necesidades empresariales y de los legados técnicos. La madurez de la organización en términos de datos y análisis también es un factor importante en la elección de la arquitectura moderna adecuada. Por ejemplo, una empresa que maneja grandes volúmenes de datos no estructurados, pero tiene dificultades para extraer valor, puede optar por un data lakehouse como primer paso. Para implementar una data mesh, se requieren equipos multifuncionales independientes con ingenieros de datos, propietarios de productos de datos y científicos de datos

Si aún no dispones de una estrategia o arquitectura de datos consolidada, descárgate nuestro e-book para obtener las claves que necesitas para hecerlo. 

Descarga el e-book

Publicado por Núria Emilio