5 razones por las que las empresas basadas en datos deberían comenzar a utilizar datos sintéticos

Cualquier empresa que dependa de la utilización de datos sabe que los datos del mundo real son un desafío en términos de costo y aplicabilidad general: cómo los datos sintéticos están llegando cada vez más al rescate.

Por
Este artículo fue traducido de nuestra edición en inglés utilizando tecnologías de IA. Pueden existir errores debido a este proceso. Las opiniones expresadas por los colaboradores de Entrepreneur son personales.

El uso de IA en los negocios está creciendo a un ritmo exponencial. Industrias tan variadas como la ciberseguridad y el comercio minorista ahora están aprovechando su poder para predecir patrones e informar los procesos comerciales. Sin embargo, incluso a medida que crece su aplicación, las empresas se enfrentan cada vez más a un desafío crítico: la falta de datos de capacitación.

A medida que la IA se vuelve más sofisticada, la relativa falta de conjuntos de datos de entrenamiento es evidente y la intervención humana en casos extremos está aumentando. Los datos sintéticos generados por simuladores y algoritmos y modelados matemáticamente a partir de conjuntos de datos del mundo real ofrecen la mejor solución a este problema. Aunque los datos sintéticos generados por computadora replican conjuntos de datos del mundo real estadísticamente y ofrecen a los desarrolladores una excelente manera de entrenar la IA.

Estas son las razones clave por las que las empresas deberían considerar su uso.

1. La competencia ya lo usa

Los datos sintéticos están lejos de ser una tendencia en ciernes. Si bien la mayoría de las empresas confían en conjuntos de datos del mundo real, el uso de datos sintéticos aumentará rápidamente. Gartner predice que para 2024, el 60 % de los datos de capacitación para proyectos de inteligencia artificial y análisis se generarán sintéticamente.

Uno de los golpes percibidos en su contra es que carece de "realismo". Después de todo, ¿cómo puede un conjunto de datos generado por un algoritmo igualar la aleatoriedad que ofrece uno del mundo real? Si bien esta objeción tiene algo de verdad, el grado de aleatoriedad en los datos del mundo real es exagerado. Si bien tienen ese componente, los conjuntos de datos del mundo real se prestan bien para el análisis de patrones y el modelado matemático. Por lo tanto, la replicación y la extrapolación son simples.

Las técnicas de modelado de datos sintéticos son muy sofisticadas y, gracias a modelos estadísticos complejos, los algoritmos pueden replicar datos del mundo real con precisión. (Los humanos tendrán que involucrarse en escenarios de casos límite, pero eso es algo que ocurre incluso con datos del mundo real).

Además, los datos sintéticos ayudan a los desarrolladores a superar una falla importante presente en los conjuntos de datos del mundo real: el sesgo. Los percances de la IA como los sufridos por Meta (anteriormente Facebook) y Google resaltan cómo los sesgos en los datos del mundo real pueden llevar a la vergüenza pública, sin mencionar las conclusiones incorrectas.

Los datos sintéticos permiten a los desarrolladores examinar sus conjuntos de datos en busca de sesgos y eliminarlos. Por lo tanto, la IA se entrena de manera eficiente y produce el resultado correcto.

Relacionado: Lo que necesita saber sobre el modelado de datos

2. Las empresas a menudo carecen de habilidades de desarrollo de IA

El desarrollo de la IA se ha producido a un ritmo vertiginoso, pero la mayoría de las empresas aún carecen de una gran experiencia en la implementación de proyectos asociados. Esta situación ocurre debido a la falta de desarrolladores calificados, así como a la etapa relativamente temprana de su desarrollo. El resultado frecuente es un programa de IA que logra un éxito vacilante y con resultados mixtos.

Gartner destaca la falta de habilidades internas en ciencia de datos como uno de los principales obstáculos para que las empresas mejoren su postura de IA. Recopilan más datos que nunca, pero no pueden ubicarlos en el contexto correcto. La proliferación de herramientas de inteligencia comercial ad-hoc también ha reflejado la falta de habilidades en ciencia de datos en la mayoría de las organizaciones, y las empresas llegan a conclusiones incorrectas de manera rutinaria.

El resultado es que la mayoría de los datos del mundo real no se usan o, lo que es peor, se usan incorrectamente. Los datos sintéticos ofrecen una solución a este lío al dar a las empresas la oportunidad de examinar sus sesgos antes de generar conjuntos de datos. Esto obliga a los empleados a aprender habilidades de ciencia de datos y a ser conscientes de los sesgos que podrían descarrilar su análisis.

Gracias a la naturaleza matemática en la que se generan los datos sintéticos, las empresas deben desarrollar procesos para mantener la calidad e integridad de los datos. Como resultado, el proceso de creación de datos sintéticos obliga a las empresas a aprender habilidades de ciencia de datos e implementar procesos de gobierno de datos.

El uso de datos sintéticos no solo mejora la precisión de la IA, sino que empuja automáticamente a las empresas a adoptar las mejores prácticas de gestión de datos. Cualquier empresa con esta postura se beneficiará a largo plazo.

Relacionado: Cómo las empresas empresariales están cambiando el reclutamiento con IA

3. Los datos del mundo real son caros

Si bien los datos del mundo real a menudo se promocionan como un ideal, es costoso obtenerlos (para algunas industrias es prohibitivo) y, a veces, no están disponibles. Por ejemplo, en los sectores militar y de defensa, los datos del mundo real nunca pueden dar cuenta de todos los casos extremos posibles; ejecutarlos en el mundo real simplemente no es una opción. Pero los datos sintéticos ofrecen una solución elegante y rentable. La aleatoriedad que ofrecen los datos del mundo real se puede replicar matemáticamente dentro de conjuntos de datos sintéticos, lo que brinda a los desarrolladores más libertad para entrenar sus modelos de IA.

Los datos del mundo real también están extremadamente sesgados. Gartner predice que para fines de 2022, el 85 % de los proyectos de IA arrojarán resultados incorrectos debido a conjuntos de datos del mundo real sesgados. Al juntar todos estos factores, es fácil ver por qué las empresas han tenido problemas para implementar la IA a una escala más amplia.

4. Escalabilidad

Escalar proyectos de IA es actualmente difícil debido a los desafíos mencionados anteriormente. A medida que se agregan más casos de uso a la pila de IA de una empresa, los conjuntos de datos del mundo real se quedan cortos con respecto a proporcionar una imagen completa de los algoritmos de IA. El resultado es que la intervención humana aumenta a medida que los proyectos de IA tienen un alcance más amplio. Esto es lo contrario del resultado esperado. Los datos sintéticos permiten a las empresas escalar fácilmente, ya que estos conjuntos de datos se pueden generar infinitamente.

Aún mejor, las operaciones que rodean los datos sintéticos son más fáciles de implementar. Por ejemplo, los procesos HITL son más simples de instalar, ya que los conjuntos de datos se generan de manera predecible. Etiquetar, categorizar y anotar conjuntos de datos es simple, lo que brinda a las empresas un proceso repetible en el que pueden confiar. Un efecto secundario es el filtrado fácil: los desarrolladores pueden aislar rápidamente los casos de uso y entrenar profundamente sus algoritmos sin perder tiempo examinando el contexto de los datos. Además, los casos de uso tienden a superponerse dentro de los conjuntos de datos del mundo real, algo que se puede evitar con los datos sintéticos. Por lo tanto, los programas de IA reciben una formación profunda en lugar de amplia.

Relacionado: 3 problemas de calidad de datos que podrían afectar su juicio

5. Privacidad y confidencialidad

La industria de la salud posee uno de los números más altos de posibles casos de uso para la implementación de IA. Sin embargo, la privacidad es un escollo. El tratamiento del paciente y otros registros médicos no se pueden usar sin permiso. Además, es muy poco probable que un paciente apruebe el uso de información privada de esta manera.

Los datos sintéticos ayudan a las empresas a evitar estos problemas, ya que no se generan a partir de casos del mundo real. En cambio, replican tales casos y extrapolan datos matemáticamente. Por lo tanto, se preserva la confidencialidad. Además, todas las ventajas mencionadas anteriormente del uso de datos sintéticos también se manifiestan aquí.

una obviedad

El uso de IA tiene un enorme potencial para las industrias en todo el mundo, pero la falta de datos presenta serios obstáculos. Los datos sintéticos ofrecen las mejores soluciones, gracias a una combinación de eliminación de sesgos, fácil anotación y ausencia de problemas de privacidad.