• Blog
  • Big Data
  • Datos sintéticos, un recurso vital para la Inteligencia Artificial

Datos sintéticos, un recurso vital para la Inteligencia Artificial

4min

¿Qué hacer cuándo no tenemos suficientes datos? Esto pasa continuamente, sobre todo cuando hacemos predicciones que no son posibles de llevar a cabo por falta de datos. Aquí entran los datos sintéticos generados de forma artificial, cuya función puede ayudarte en la estrategia de IA que tengas.

Índice

Qué son los datos sintéticos

Los datos sintéticos es información que se genera de forma artificial para sustituir los datos históricos reales con el fin de entrenar modelos de Inteligencia Artificial. Se recurre a este tipo de datos porque los datos reales son insuficientes (o de mala calidad) e imposibilitan su uso para la consecución de fines.

Son relacionados con la Inteligencia Artificial por la forma en la que se generan, como por su utilidad de cara a estrategias IA. No son pocas las empresas que hacen uso de la IA para muchos fines distintos: entrenar modelos de Machine Learning, probar software, automatizar procesos, etc. 

Existen herramientas específicas para crear datos sintéticos, como son GPT-J, Synthea o SDV, entre otras. Eso sí, muchos se construyen manualmente porque no hay una herramienta que simplifique todo el trabajo. 

Ejemplos de utilidad de los datos sintéticos

Vemos oportuno ilustrar mejor la utilidad de los datos sintéticos en relación con la Inteligencia Artificial, como su puesta en práctica en otros ejemplos. 

Predicciones con falta de datos

El primer ejemplo que se nos ocurre es entrenar un modelo cuando faltan datos reales. Hacemos referencia al Machine Learning y a la IA cuando se necesita un gran volumen de datos. Para hacerlo más visual, hablemos de una predicción en Netflix sobre los gustos de un usuario según la actividad que ha tenido en la plataforma (series, películas, géneros, etc.). 

No podemos hacer una buena predicción porque el usuario se acaba de crear la cuenta y no ha querido elegir preferencias o gustos. Esto significa que no hay suficientes datos para hacer una predicción precisa, así que el único recurso es recopilar o comprar datos, una práctica muy costosa.  Aquí, los datos sintéticos pueden ser muy útiles porque nos darán una idea aproximada de qué es lo que puede gustarle al usuario

Este mismo ejemplo se puede aplicar a los datos visuales, como son los generadores de caras. Nos falta información, pero logramos rellenarla con datos sintéticos porque una imagen de una cara con la boca cerrada no nos está dando la información acerca de la dentadura de esa persona. El generador trabaja con IA y logra generar una sonrisa artificial.

Rellenar lagunas

En este caso, sí tenemos datos reales con los que poder trabajar, pero hay ciertos grupos de datos que no reflejan la realidad. Podemos tener un sistema entrenado para reconocer direcciones de calle de usuarios, pero en la base de datos no tenemos suficientes direcciones con las que trabajar.

Por tanto, se requiere un equilibrio entre los datos, y los sintéticos pueden ayudar, aunque no se pueden utilizar de cualquier manera. Ilustrándolo mejor, vamos a pensar en una tienda online que tenga un 90% de personas que han realizado el pedido y lo han pagado, mientras que tenemos menos de un 10% de personas que han pagado el precio con una tarjeta sin fondos.

Generar escenarios virtuales con falta de información

Pensemos en el Metaverso, un mundo virtual que pretende simular al real, pero, ¿diseñadores 3D van a construir todo este mundo? Se requeriría cantidades ingentes de dinero para dicho fin, así que los datos sintéticos pueden replicar escenarios o llenar lagunas en base al entrenamiento de un modelo de IA

Esto ya se ha hecho antes con videojuegos sandbox (mundo abierto), en los que se generan personas u objetos prácticamente iguales. 

¿Por qué se relaciona la IA con el Machine Learning?

El Machine Learning es parte de la Inteligencia Artificial, atendiendo al objetivo de enseñar a las máquinas aprender de forma automática mediante la experiencia. Su aplicación es diversa y gira en torno a la disposición de datos, que son usados para tomar decisiones con más inteligencia y mayor probabilidad de éxito.

Si el Machine Learning no existiese, necesitaríamos una cantidad de recursos de computación enorme para todos los cálculos complejos. Ahí es dónde aparece la tecnología como forma de optimizar los recursos y ahorrar costes. Un ejemplo claro de esta optimización, son nuestras aplicaciones de Machine Learning, destacando JupyterLab o Docker.

Fernando Fuentes

Productos relacionados: