El catálogo de datos y su relación con el data governance

4min

Definimos catálogo de datos como una colección de metadatos, combinada con herramientas de gestión y búsqueda de datos, que ayuda a los analistas y otros usuarios a encontrar los datos que necesitan, inventariar los disponibles y proporcionar información para evaluar la idoneidad de estos para los usos previstos.

Con esta definición se establecen las bases del concepto y se señalan algunos aspectos fundamentales, como la gestión, la búsqueda, el inventariado y la evaluación de los datos. Nada de eso es útil, sin embargo, sin una buena definición de la colección de metadatos.  

Los metadatos son información sobre los datos. Son importantes porque todas las organizaciones cimentan gran parte de su actividad (si no toda) en los datos, lo que hace que encontrar los adecuados sea un reto. Para poder catalogar y clasificar los datos es necesario… disponer de datos sobre estos. Una especie de índice, un catálogo (de ahí la definición que nos ocupa en este artículo) que proporcione información adecuada sobre los datos.

Los metadatos y su gestión eficaz son un componente crítico de una buena estrategia de gestión de datos. Los metadatos son el componente que permite a las organizaciones gestionar, gobernar y utilizar los datos de forma eficaz y adecuada.

Las mejores prácticas de gestión de metadatos exigen un catálogo de datos.

Índice

El catálogo de datos como estándar para la gestión de metadatos

Los catálogos de datos se han convertido en el estándar para la gestión de metadatos en la era del Big Data y la Inteligencia Artificial. Los metadatos que necesitamos hoy son más amplios y complejos que los metadatos de la era del Business Intelligence. Hoy, el catálogo de datos se centra primero en el inventario de datos disponibles y conecta dichos conjuntos de datos con información enriquecida para informar a las personas que trabajan con ellos. 

Un catálogo de datos moderno incluye características y funciones que dependen de la capacidad básica de catalogar datos. Es decir, de cómo recopilar los metadatos que identifican y describen el inventario de datos que se pueden compartir. En la actualidad es inviable, ineficiente y algunos otros calificativos más, intentar catalogar los datos de forma manual. En la era del Big Data, la salida racional pasa por el descubrimiento automatizado de conjuntos de datos, tanto para la creación inicial del catálogo como para el descubrimiento continuo de nuevos conjuntos de datos. 

El papel de la Inteligencia Artificial es clave en el proceso, tanto a la hora de recopilar metadatos como para inferir la semántica y el etiquetado a partir de los requerimientos. Disponer de metadatos sólidos como núcleo del catálogo de datos permite una serie de funcionalidades o utilidades muy interesantes, como:

  • Búsqueda por facetas, palabras clave y términos empresariales en lenguaje natural, algo muy apreciado por los usuarios menos técnicos
  • Evaluación de conjuntos de datos. La capacidad de evaluar la idoneidad de los conjuntos para un caso de uso concreto sin necesidad de descargar o adquirir los datos primero es de lo más interesante
  • Acceso a los datos con una experiencia de usuario fluida. En este caso, el catálogo puede “conocer” los protocolos de acceso para dar acceso directamente

Un software de catálogo de datos robusto debe proporcionar muchas otras capacidades, como las funciones de gobernanza de datos. Tanto los catálogos de datos como la gobernanza de datos trabajan juntos e intersectan de manera útil. 

Por un lado, los catálogos de datos comunican información sobre los activos de datos de una organización y dónde se encuentran; por otro, la gobernanza de datos se ocupa de la gestión general de los datos, como la precisión, la facilidad de uso, la seguridad y los procesos establecidos que utiliza la organización. Es por eso que los programas de gobierno de datos suelen incluir catálogos de datos como parte clave de su diseño general.

Al organizar los datos en catálogos con un formato sencillo los usuarios e investigadores pueden reconocerlos y procesarlos fácilmente. Por tanto, en el nivel más básico, la gobernanza de datos y los catálogos de datos se cruzan en su uso de los datos y conjuntos de estos. La gobernanza dicta los procesos, mientras que los catálogos se centran en la interconexión de los paquetes de datos.

Fernando Fuentes

Productos relacionados: