Fidelidad del dato, ¿qué necesitas saber?
Los datos son el motor de muchas empresas, su bien más valioso y, además, los datos son claves para el desarrollo de aplicaciones y servicios basados en la Inteligencia Artificial.(IA) Los modelos de Machine Learning, el Deep Learning y prácticamente cualquier modelo de IA necesita datos con los que entrenarse.
Esto significa que los datos recopilados por diversas fuentes (desde sensores hasta interacciones con clientes) no solo sean de calidad, sino que también deben de ser fiables y fieles a la realidad. ¿Qué significa fidelidad del dato y por qué es crucial en la nueva economía del dato?
Fidelidad del dato, ¿qué es?
La fidelidad de los datos se refiere a su exactitud, integridad, coherencia y actualidad. Esto nos da una indicación del grado de fiabilidad que aportan, además de su exactitud. Veamos estos conceptos más en detalle:
- La exactitud se refiere a cómo de aproximados son esos datos con respecto al valor verdadero (original), y tiene que ver con data accuracy.
- La integridad se refiere a que los datos sean completos y que contengan toda la información que se espera de ellos. Los datos incompletos pueden conducir a información incorrecta o sesgada.
- Por otro lado, cuando hablamos de coherencia se está indicando la consistencia de los datos que provienen de fuentes diversas, que vienen con formatos distintos y que no llegan, necesariamente, sincronizados. Los datos inconsistentes pueden generar confusión y conclusiones incorrectas.
- Finalmente, la actualidad implica que los datos estén actualizados y disponibles cuando se necesiten. Los datos obsoletos o retrasados pueden dar lugar a oportunidades perdidas o decisiones incorrectas.
La importancia de la fidelidad de los datos
Que los datos sean fieles es un elemento diferenciador a la hora de tomar decisiones informadas que sirven, entre otras cosas, para alcanzar los objetivos empresariales. Sin datos fiables, los responsables de esa toma de decisiones no pueden tener confianza alguna en las ideas y recomendaciones que se derivan de ellas.
Estos responsables necesitan datos precisos, completos, coherentes y actualizados para comprender y asimilar tendencias, para identificar oportunidades y, sobre todo, para mitigar riesgos. Datos incorrectos, desactualizados o sesgados pueden llevar a tomar decisiones de inversión incorrectas, lo que deviene en pérdidas cuantiosas, según sea la inversión acometida.
Otras consecuencias negativas que nos trae la no fidelidad de los datos son:
- El desperdicio de recursos, ya sean recursos físicos, tiempo o dinero. Esto es así porque los responsables de la toma de decisiones pueden intentar corregir o compensar los datos deficientes con esos recursos, tiempo y esfuerzo. Partir de conjuntos de datos fieles supone un acelerador para las decisiones de calidad.
- Información imprecisa. Es algo bastante evidente que los datos de mala calidad pueden conducir a percepciones incorrectas o sesgadas. Estas percepciones equivocadas darán lugar a malas decisiones que, por supuesto, van a afectar a los resultados finales.
- Pérdida de oportunidades. Tomar malas decisiones nos aleja de las buenas oportunidades o nos pueden llevar a tomar malas decisiones.
- Daños a la reputación empresarial. En el peor de los casos, las malas decisiones tomadas a partir de conjuntos de datos de mala calidad pueden llegar a dañar la reputación de las empresas, erosionando la confianza de sus clientes y grupos de interés. Estos daños son muy difíciles de revertir.
En lo que se refiere a la fidelidad de los datos, las características de una fuente se han de cuantificar con precisión. Sin embargo, la fidelidad de los datos se utiliza actualmente en ciberseguridad para detectar intrusiones. Esto se consigue utilizando la granularidad de los datos de eventos capturados. Por tanto, también es posible definir la fidelidad del dato en términos de granularidad y precisión de los datos detallados en un informe.
¿Qué necesitamos para garantizar la fidelidad? Para ello, los datos deben ser:
- Trazables, de manera que podamos rastrearlos fácil y rápidamente cuando lo necesitemos.
- Precisos, de forma que podamos identificar cualquier laguna e incoherencia antes de procesarlos.
- Seguros, es decir, deben gestionarse de forma segura para garantizar que sólo los usuarios autorizados accedan a ellos.
Construir, gestionar y mantener arquitecturas de datos de alta fidelidad requiere habilidades complejas, planificación y preparación. Cada vez más, los volúmenes crecen, la velocidad de adquisición de datos aumenta, las fuentes son más diversas… El procesamiento asíncrono guiado por IA es clave para garantizar ciertas cotas de fidelidad, pero siempre que queramos aumentar la fidelidad y reducir la latencia, necesitaremos más habilidades e ingeniería.