Datos erróneos: el problema de $ 3 billones por año que en realidad tiene solución Cómo la tecnología adecuada puede ayudar a los emprendedores a hacer que los datos sean más accesibles y precisos, evitando pérdidas masivas en el proceso.
Por Joy Youell
Este artículo fue traducido de nuestra edición en inglés.
Las opiniones expresadas por los colaboradores de Entrepreneur son personales
En 2016, IBM publicó un informe en el que estimaba que los datos incorrectos cuestan a las empresas y organizaciones estadounidenses un billón de dólares al año. Estos fondos se desperdiciaron, entre otras cosas, en el tiempo del personal del conocimiento (como TI) dedicado a digitalizar o actualizar fuentes más antiguas, encontrar y corregir errores durante la organización, y simplemente buscar tanto información como fuentes confirmadas de datos en los que dudan en confiar. . Un punto adicional de preocupación fundamental es el grado en que las empresas no han aprovechado igualmente la era de Big Data; Incluso las empresas muy exitosas y bien establecidas tienen una cantidad variada de datos en diferentes lugares y formatos, pero pueden ser impotentes para usarlos porque no están estructurados o semiestructurados. Si se desea actualizar todas las posibilidades de la inteligencia artificial (IA), los datos deben estar disponibles para su uso de manera significativa.
Algunos pioneros obvios, como Google o Amazon, sientan precedentes para la gestión de datos, pero la mayoría de las empresas no son como estos y no manejan casi el mismo volumen o velocidad cuando se trata de datos. Para todas las demás empresas del mundo, incluidas las que se encuentran en modo de puesta en marcha o de ampliación, se necesita una solución.
Relacionado: 3 problemas de calidad de los datos que podrían afectar su juicio
A caballo entre mundos digitales y basados en papel
Muchas empresas de diversos tipos y tamaños se encuentran a caballo entre los mundos digital y basado en papel. Algunos de sus datos potencialmente más útiles se encuentran en documentos (tipos de archivos como PDF, imágenes y documentos escaneados) prácticamente no disponibles para informar decisiones de alto nivel o llegar a conclusiones decisivas. Si los resultados positivos van a ser posibles, este tipo de fuentes de información deben organizarse, y la inteligencia artificial y el aprendizaje automático (ML) pueden proporcionar las herramientas para hacerlo.
IA para la gestión de datos
Para muchos emprendedores en modo de lanzamiento, existen tres barreras potenciales. Primero está la idea de que la IA requiere inmensas cantidades de datos para generar actividades de precisión; segundo, que los datos se encuentran a menudo en numerosos formatos: estructurados, semiestructurados y no estructurados; y tercero, que la gestión de datos podría no haber sido una parte inherente de las operaciones comerciales existentes y, por lo tanto, corregir el rumbo requeriría demasiado esfuerzo antes de que se puedan lograr mejores resultados.
Relacionado: Esta es la salsa secreta detrás de la tecnología eficaz de IA y ML
Primero, el desafío de la cantidad. Si las empresas tienen menos datos, ¿cómo pueden esperar obtener el mismo nivel de conocimiento o entrenar modelos algorítmicos tan rápido como competidores más grandes? La solución es la misma que en cualquier ámbito del desarrollo de software: hazlo de forma incremental. Con el aprendizaje de una sola vez, un modelo puede aprender literalmente de cualquier punto de datos. Esta tecnología ya existe y se muestra cada vez que un usuario usa el reconocimiento facial para abrir su teléfono inteligente, por ejemplo. El sistema necesita muy pocos datos y puede aprender a adaptarse rápidamente incluso si se producen pequeños cambios en las funciones. Muchos modelos de código abierto para datos no funcionan de esta manera, pero podrían hacerlo.
En segundo lugar, está el desafío de los datos en muchos formatos. Especialmente en industrias bien establecidas, la transformación digital sigue siendo incompleta. Esto significa que todos y cada uno de los tipos de datos históricos existen en archivadores, discos duros y en lugares de difícil acceso o formatos difíciles de igualar. Aquí es donde entra en juego el poder del aprendizaje automático.
La higiene de datos es un método de procesamiento de datos para garantizar que estén relativamente libres de errores. Hay un ciclo para esto, desde la importación, la normalización, la verificación y la exportación. Dependiendo de la naturaleza de los datos (por ejemplo, si están encriptados o anonimizados), el método de limpieza de los datos puede variar. El aprendizaje automático puede crear un sistema libre de errores en el que los componentes de datos objetivos se miden entre sí, los problemas se identifican rápidamente, las partes irrelevantes se eliminan y los datos resultantes se vuelven confiables. Esto se puede automatizar y, una vez configurado, se pueden procesar cantidades importantes de información de inmediato. Entonces, cada nuevo punto de datos se puede procesar para obtener la máxima eficiencia y eficacia.
En tercer lugar, la gestión de datos forma parte de las operaciones comerciales habituales. El desafío clave para esto no es necesariamente el despliegue de la mano de obra para administrarlo, sino la configuración. La mayoría de los sistemas de gestión de datos utilizan algoritmos patentados y requieren codificadores o tecnólogos expertos para implementarlos y mantenerlos. Este dilema está representado de manera similar en otros contextos, y uno en el que el movimiento sin código está marcando una diferencia.
Los innovadores en este espacio se dan cuenta de que las personas que conocen los datos y los entienden de manera intuitiva no son científicos de datos. Más bien, son los dueños de negocios y los operadores que han trabajado en el problema y encontraron crítico que operen las plataformas de administración de datos. Ellos realizarán el etiquetado, la búsqueda y el uso real, por lo que deben tener opciones de autoservicio; de lo contrario, el caos de datos desorganizados o inaccesibles solo será reemplazado por el estrés de un contrato de proveedor a largo plazo para mantener un modelo en funcionamiento. , uno que podría ser insostenible.
¿Y la privacidad de los datos?
Inevitablemente, cualquier consideración sobre cómo está cambiando la gestión de datos debido a la tecnología emergente debe centrarse en la privacidad. Muchas de las empresas que buscan soluciones en ese espacio incluyen aquellas con datos cifrados, datos médicos y datos financieros, pero los datos en una amplia gama de documentos de la empresa tienen todo tipo de información confidencial de propiedad y de clientes. En el nivel más básico, estos deben estar protegidos, tanto en reposo como en tránsito, idealmente con niveles de seguridad más estrictos, como SOC II Tipo 2 y HIPAA.
El aprendizaje automático también puede ayudar en este esfuerzo, ya que es capaz de proporcionar un enfoque en capas. Si los algoritmos se entrenan previamente con datos anónimos, no debería ser necesario usar datos reales de clientes para refinarlos. El modelo de aprendizaje de una sola vez mencionado anteriormente toma datos de un usuario individual y aprende la estructura del documento de los datos de ese usuario, sin compartirlos con otros usuarios para entrenar sus modelos.
Si bien las empresas emprendedoras intentan lograr la transformación digital y la precisión de los datos, existen formas en las que pueden mejorar la eficiencia y reducir los errores a través del procesamiento inteligente de documentos impulsado por el aprendizaje automático. Si bien hay muchas cosas que el aprendizaje automático aún no puede hacer, la administración de datos es algo que está dentro del alcance de lo que es posible ahora.