5 habilidades indispensables para los científicos de datos Con la demanda de científicos de datos en aumento, aquí hay algunas habilidades comerciales y técnicas clave que debe dominar y que lo ayudarán a destacarse.
Por Brooke Wenig Editado por Amanda Breen
Este artículo fue traducido de nuestra edición en inglés.
Las opiniones expresadas por los colaboradores de Entrepreneur son personales
Las aplicaciones de aprendizaje automático son una parte integral de nuestras vidas. Lo más probable es que, nos demos cuenta o no, entremos en contacto con modelos de aprendizaje automático todos los días en línea a través de recomendaciones y anuncios, detección de fraude, búsqueda, reconocimiento de imágenes y más. Como resultado de su creciente prevalencia en nuestro día a día, la demanda de científicos de datos se ha disparado en los últimos años, con un crecimiento laboral proyectado del 31% hasta 2029. Sin embargo, los científicos de datos todavía escasean; en 2020, hubo una escasez de científicos de datos de 250.000.
Si está buscando seguir una carrera como científico de datos, sepa que abarca mucho más que simplemente procesar números y programar; también se espera que los científicos de datos tengan una gran perspicacia para los negocios, comunicación y habilidades para hablar en público. Como líder de práctica de aprendizaje automático en Databricks , superviso un equipo cada vez mayor de científicos de datos y he aprendido de primera mano lo que se necesita para sobresalir y destacar entre la multitud.
Relacionado: ¿Habrá demanda de ciencia de datos en el futuro?
¿Estás emocionado de sumergirte en el desarrollo profesional y aprender nuevas herramientas para avanzar en tu carrera, pero no estás seguro de por dónde empezar? Aquí hay cinco habilidades que debe tener en cuenta para impulsar su carrera y perfil profesional en ciencia de datos.
1. Combinación de comunicaciones técnicas y no técnicas
Comunicar conceptos técnicos a audiencias técnicas y no técnicas por igual es fundamental para prosperar como científico de datos. Todo el trabajo duro que dedique a construir el modelo más preciso no importará si no puede explicárselo a los demás y convencerlos de que lo adopten y confíen en él.
Para ayudar a que los conceptos se mantengan, un consejo que recomiendo es usar analogías con elementos que las personas ven en su vida diaria. Por ejemplo, cuando explico la computación distribuida con Apache Spark, ilustro el proceso contando artículos domésticos fácilmente reconocibles, como caramelos. En este escenario, si tengo una bolsa grande de M & M, podría contarlos uno por uno para llegar al recuento exacto. Una manera fácil de paralelizar esta tarea es invitar a muchos de mis amigos, cada uno de los cuales puede contar una parte de los M & M, para que lleguen al recuento exacto de manera más eficiente. Ahora, cuando la gente va a la tienda y ve M & M's, ¡no pueden evitar pensar en Spark! A menudo, la gente usa analogías de cohetes, pero a menos que trabajes en SpaceX o en la NASA, es probable que no te encuentres con cohetes en tu vida diaria, lo que dificulta que tu analogía se mantenga.
Al comunicarse de manera eficaz y explicar la terminología de una manera que todos puedan entender, aumentará la transparencia de los datos en toda la organización y se asegurará de que todos comprendan el valor que usted brinda.
2. Siempre esté aprendiendo
Si bien existe una clara necesidad de más talento, muchos programas de educación tradicional no enseñan todas las habilidades necesarias para ser un científico de datos. Por ejemplo, la mayoría de los cursos universitarios y de Coursera que tomé se centraron en aprender y aplicar técnicas para mejorar el rendimiento del modelo en comparación con los puntos de referencia (por ejemplo, maximizar la precisión en ImageNet). Sin embargo, cuando entré en la industria, aprendí que esos procesos son una pequeña pieza del rompecabezas. Debe preocuparse por cómo se recopilaron (y etiquetaron) los datos, las limitaciones de implementación y la infraestructura para servir el modelo, las canalizaciones de reentrenamiento y monitoreo del modelo, etc. El documento de Google "Deuda técnica oculta en sistemas de aprendizaje automático" describe este fenómeno. En este documento, informan que aproximadamente el 5% de los sistemas de AA del mundo real se componen de "código de ML", mientras que el resto es "código adhesivo" para respaldar estos sistemas de AA.
Entonces, ¿cómo se aprenden todas las habilidades necesarias para ser un científico de datos y mantenerse al día con las últimas innovaciones? Siempre esté aprendiendo. Vivo mi vida con la filosofía de que aprendes algo nuevo de todos los que conoces. Recomiendo encarecidamente crear una red a través de colegas y compañeros, asistir a reuniones y exponerse a varios aspectos del campo del aprendizaje automático. ¡Continué tomando clases y participando en grupos de estudio de lectura regulares incluso años después de terminar la escuela de posgrado! También recomiendo suscribirse a The Batch , un resumen semanal gratuito de las novedades en la investigación de ML y las aplicaciones innovadoras de ML en la industria (y, lo más importante, las áreas en las que ML y las políticas deben mejorar).
El campo de los datos está evolucionando muy rápidamente: en informática, la vida media típica de su conocimiento es de siete años, pero es incluso más corta que en la ciencia de datos. La innovación tecnológica seguirá aumentando a un ritmo rápido, pero no se sienta abrumado o intimidado. Siga aprendiendo a un ritmo constante y siempre tendrá nuevas habilidades para aplicar.
3. Comenzar de manera simple y establecer una línea de base
Con los rápidos avances en ML, los científicos de datos están ansiosos por utilizar las últimas y mejores herramientas. Sin embargo, siempre les digo a los científicos de datos que comiencen de manera simple y establezcan una línea de base con métricas asociadas. Esta línea de base debe ser muy ingenua, como predecir el valor promedio para problemas de regresión (p. Ej., Predecir el precio promedio de la vivienda) o la clase más frecuente para problemas de clasificación (p. Ej., Predecir siempre "no"). No puedo decirte la cantidad de veces que he visto a alguien alardear: "Mi modelo de aprendizaje automático tiene un 90% de precisión en la predicción del problema XYZ" solo entonces para que otra persona señale: "Si siempre predice 'no', será preciso el 99% del tiempo ". Establecer un punto de referencia y métricas de evaluación claras y relevantes para el producto es crucial para ganar confianza para sus sistemas de aprendizaje automático. Si su métrica para la evaluación es la precisión, el método en el que constantemente predice "no" podría maximizar la precisión, pero es un modelo sin sentido. En este caso, la puntuación F1 podría ser una métrica apropiada que equilibre tanto la precisión como la memoria , no solo el número absoluto de predicciones correctas. Una vez que haya establecido una línea de base, trátelo como un límite inferior para el rendimiento predictivo de su sistema de aprendizaje automático.
Relacionado: Por qué su startup necesita ciencia de datos
4. Hacer las preguntas correctas
Sé que los científicos de datos están ansiosos por crear modelos, pero comprender los datos, hablar con las partes interesadas y los expertos en la materia, y hacer preguntas continuamente sobre los datos a través del análisis exploratorio de datos es fundamental para ofrecer la solución adecuada para el negocio.
En lugar de saltar directamente a resolver el problema técnico en cuestión, dé un paso atrás y comprenda el problema comercial que está tratando de resolver. Por ejemplo, en lugar de discutir si debe usar PyTorch o TensorFlow, pregunte: "¿Cómo se usará este modelo? ¿Cómo cuantificamos el 'éxito' de este proyecto?" Pensar en las respuestas desde el principio pagará dividendos más adelante en el proyecto.
También debe hacer preguntas sobre sus datos, como cómo se recopilan, cómo deben (y no deben) usarse, etc. Recomiendo encarecidamente el documento "Hojas de datos para conjuntos de datos" de Gebru et al para inspirarse en las preguntas correctas para pregunte por los datos.
5. Identificar su especialización
Cuando entrevisto candidatos para mi equipo, busco personas que puedan contribuir al conjunto de habilidades existentes del equipo; sin importar cuán increíbles sean los clones de los miembros del equipo existente, quiero personas que puedan aportar nuevos talentos e ideas a la mesa. En esencia, busco construir un conjunto humano.
Lo que realmente hace que los candidatos se destaquen es cuando tienen una pasión o experiencia en un área determinada. Puede ser dentro de un aspecto particular del AA, como la PNL o la visión por computadora, o dentro de una industria determinada, como el comercio minorista, pero el diferenciador fundamental es establecerse como un experto en la materia y mantenerse actualizado en esa área. De esta manera, se convierte en la persona a la que acudir para un tema en particular y se vuelve indispensable.
A medida que avanzan las herramientas de ciencia de datos, particularmente con soluciones de código bajo y sin código, pulir sus habilidades comerciales además de dominar las habilidades técnicas le permitirá destacarse entre la multitud y ofrecer continuamente el mejor valor por su tiempo.
Ahora, cuando se acerque a un nuevo proyecto, júntelo todo: asegúrese de hacer las preguntas comerciales y de datos correctas, establezca una línea de base y métricas asociadas, aprenda algo nuevo mientras está en el trabajo, aproveche su especialización y comunique los resultados de manera efectiva con las partes interesadas. Si puedes lograr todo esto, serás una estrella de rock.
Relacionado: Cómo la ciencia de datos puede ayudarlo a hacer crecer su negocio más rápido