El concepto Data as a Product (DaaP) es una de las bases para la construcción de una malla de datos, pero, ¿qué son exactamente los datos como producto?
El concepto "Data as a Product (DaaP)" se ha popularizado a medida que las empresas data-driven están apostando por construir una arquitectura de datos flexible en su organización. Sin embargo, aún existe bastante confusión acerca de qué es y qué implica considerar los datos como productos. El término "Data as a Product (DaaP)" es, en ocasiones, erróneamente confundido con el término "producto de datos".
El término "Data as a Product (DaaP)" ha ganado relevancia en relación con el concepto "data mesh", ya que uno de los principios del paradigma data mesh es considerar los datos como un producto. Es decir, tratar los datos corporativos como un producto es uno de los pilares para la construcción de una malla de datos empresarial.
A pesar de no ser un concepto reciente y de que los profesionales del mundo del dato han tratado los conjuntos de datos o datasets como productos desde los primeros data warehouses; la relevancia de la visión "Data as a Product (DaaP)" se ha acentuado gracias al auge de las arquitecturas de datos flexibles como las data mesh o mallas de datos en español.
Según IDC, en 2026, solo el 10% de los datos producidos anualmente serán completamente nuevos. El 90% restante serán producto de la reutilización de datos ya generados. Este escenario solo incrementa la importancia de empezar a tratar los datos como un producto, en lugar de como una herramienta para la construcción de productos de datos.
Desde la popularización del término DaaP, inventando por Zhamak Dehghani, son muchos los que no acaban de entender la diferencia entre "los datos como producto" (DaaP) y los "productos de datos".
A continuación, intentamos aclarar qué son los datos como producto, en qué consiste realmente la perspectiva Data as a Product (DaaP) y en qué se diferencia de los productos de datos (data product).
¿Qué es Data as a Product (DaaP)?
Básicamente, Data as a Product (DaaP) es una perspectiva que consiste en entender y tratar los datos como un producto. Este enfoque considera los datos como elementos que pueden ser reutilizados y aprovechados para proveer información en momentos requeridos por los procesos de negocio o para suministrar datos significativos cuando se busca analizar aspectos concretos relativos a la actividad empresarial o tomar decisiones estratégicas basadas en ellos.
Se trata de una visión que implica garantizar que los activos de datos poseídos cumplen con una serie de características fundamentales, tales como ser fácilmente detectables, seguros, direccionables, comprensibles y confiables. Para conseguirlo, el papel del Chief Data Officer se considera clave.
El concepto "Data as a Product (DaaP)" surge, originalmente, del artículo 'Data Mesh: Delivering Data-Driven Value at Scale' de Zhamak Dehghani. En el artículo, el autor explica la clave del porqué es necesario considerar los datos como productos: "Los equipos de datos deben aplicar el pensamiento de producto [...] a los conjuntos de datos que proporcionan; considerando sus activos de datos como sus productos y al resto de científicos de datos, machine learning e ingenieros de datos de la organización como sus clientes."
En pocas palabras, la noción de "los datos como producto" emerge al aplicar una mentalidad de desarrollo de productos a los conjuntos de datos, garantizando que poseen diversas cualidades fundamentales.
¿Cuál es la diferencia entre Data as a Product (DaaP) y un producto de datos (data product)?
El término "Data as a Product (DaaP)" ha sido, en ocasiones, erróneamente traducido o citado como "producto de datos", cosa que ha llevado a la confusión entre ambos términos que, sin embargo, no significan lo mismo.
Si nos remontamos a la primera definición reconocida de "producto de datos", acuñada por DJ Patil en el libro "Data Jujitsu: The Art of Turning Data into Product" (2012); un producto de datos es "un producto que facilita la consecución de un objetivo final a través del uso de datos".
Por tanto, se trata de cualquier producto que se apoya en datos para alcanzar un objetivo. En este sentido, cualquier periódico online podría ser considerado un producto de datos si las noticias que se presentan en la página de inicio son seleccionadas de forma dinámica basándose en datos del historial de navegación.
En el año 2018, Simon O'Regan ofreció un artículo bajo el título "Designing Data Products" en el que expuso ejemplos concretos de productos de datos, categorizándolos por tipo: datos en bruto, datos derivados, algoritmos, asistencia en la toma de decisiones y decisiones automatizadas.
En definitiva, un "producto de datos" es un concepto genérico que engloba cualquier producto impulsado por datos. Por el contrario, "Data as a Product (DaaP)" es una mentalidad que consiste en tratar los datos como un producto.
Ejemplos concretos de producto de datos
A continuación listamos algunos ejemplos de productos de datos para que quede más clara la diferencia entre "producto de datos" y "Data as a Product (DaaP)":
- Un data warehouse es un producto de datos que, a su vez, es una mezcla de datos en bruto, de datos derivados y también un sistema de apoyo a la toma de decisiones.
- Un cuadro de mando empresarial que representa visualmente los indicadores de rendimiento y KPIs de la empresa es un producto de datos del tipo sistema de apoyo a la toma de decisiones y la interfaz para acceder a él es una visualización.
- Una lista de restaurantes cercanos recomendados elaborada específicamente para un usuario en concreto es un producto de datos del tipo sistema automatizado de toma de decisiones.
- Un coche autónomo también se puede considerar un producto de datos. Debido a que el coche conduce automáticamente gracias a los datos, se trata de un producto de datos de toma de decisiones automatizada.
Las características clave de "Data as a Product (DaaP)"
¿Cómo se materializa la idea de "datos como producto"? Un dato en forma de producto abarca el código, sus propios datos junto con los metadatos asociados, y la infraestructura requerida para su ejecución.
Las autoridades en materia de datos remarcan una serie de características que deben cumplir los datos y su gestión para ser considerados "Data as a Product (DaaP)".
Los datos como producto deben ser:
1) Accesibles
Para asegurar que los datos como producto sean fácilmente encontrados, es esencial contar con un motor de búsqueda que permita a los usuarios registrar los datasets o conjuntos de datos y solicitar acceso a ellos cuando lo necesiten.
La primera fase de esta capacidad podría implicar simplemente disponer de una lista de conjuntos de datos en la red interna de la empresa, y a partir de ahí, ir construyendo y mejorando de forma progresiva.
2) Direccionables
Disponer de conjuntos de datos direccionables y fácilmente localizables mejora notablemente la productividad de los equipos que trabajan con ellos. Los analistas y científicos de datos obtienen la capacidad de ser independientes en la búsqueda y uso de los datos que necesitan para hacer su trabajo. Asimismo, los flujos de trabajo de los ingenieros de datos se ven menos interrumpidos por las consultas de terceras personas que quieren saber dónde pueden acceder a los datos vinculados con un tema específico.ico.
3) Autodescripción e interoperabilidad
En un mundo en el que las empresas cada vez acumulan más y más datos, es fundamental que los datasets incluyan metadatos que aporten claridad y sigan pautas uniformes de nomenclatura (lo que, a su vez, fomenta la interoperabilidad de los conjuntos de datos).
Para que los consumidores de los conjuntos de datos puedan encontrarlos y usarlos debidamente para el propósito para el cual fueron creados, es fundamental que los datasets incluyan descripciones con, como mínimo, los siguientes parámetros:
- Ubicación de los datos
- Procedencia de los datos y asignación de datos
- Datos de muestra
- Tiempo de ejecución y de actualización
- Precondiciones de entrada
- Cuaderno de ejemplo o consultas SQL utilizando el conjunto de datos
En Bismart disponemos de una solución que autodocumenta los datasets de Power BI y los enriquece con descripciones funcionales y de negocio. Power BI Data Catalog fomenta el uso adecuado de los datos y capacita a los usuarios empresariales, independientemente de sus habilidades técnicas, para que puedan generar sus propios informes sin asistencia técnica.
¡Descubre Power BI Data Catalog!
4) Fiables y seguros
En estos momentos, asegurar la calidad de los datos de manera periódica y automatizada resulta esencial para cumplir con la expectativa de confiabilidad que los datos como producto deben ofrecer. En este sentido, los responsables de los datasets deben responder en consecuencia a los resultados obtenidos de estas evaluaciones.
Las evaluaciones de calidad de datos deben ser llevadas a cabo tanto en la etapa de ingreso como en la de consumo de los datos. Además, es conveniente proporcionar contexto acerca de la calidad de los datos a aquellos que los consumen.
En Bismart también disponemos de una solución diseñada para respaldar la calidad de los datos de una organización. La herramienta evalúa, valida, documenta y realiza profiling sobre los datos, asegurando un nivel óptimo de calidad.
¡Descubre Data Quality Framework!
Finalmente, los conjuntos de datos que han sido registrados y cuya calidad ya ha sido evaluada, no deberían estar al alcance de todos de forma automática si se quiere garantizar la seguridad de los datos. En cambio, es recomendable que los usuarios soliciten acceso individualmente para cada dataset y que sean los responsables de cada dataset quienes concedan o denieguen el acceso.
Conclusión
El concepto de "Data as a Product (DaaP)" es fundamental para la construcción de una malla de datos empresarial. Tratar los datos como un producto implica entender su valor como elementos reutilizables y aprovechables para proveer información y tomar decisiones estratégicas.
A diferencia de los productos de datos, los datos como producto se enfocan en garantizar características fundamentales como su facilidad de detección, seguridad, direccionabilidad, comprensión y confiabilidad.