Así que sí, esta publicación puede parecer un poco un cebo de clics, pero te prometo que no es exactamente eso (bueno, un poco).
Hace poco recibí una pregunta en Quora sobre qué habilidades exactas buscan las empresas cuando contratan a un científico de datos. y ¿existe una definición de perfil de científico de datos? Como es bastante obvio, no hay un perfil único, ya que cada empresa resuelve su propio conjunto de problemas. Pero traté de crear algunos perfiles de trabajo genéricos que pudieran adaptarse de alguna manera a los JD de diferentes empresas. Creo que hay mucha más variedad, pero tuve que limitarme a un conjunto de perfiles, así que esta es la lista:
La R usando un calculador de números. Puede ejecutar agrupaciones rápidas y cuentas con números en R/Python. Este perfil es la versión codificada de Data Analyst de antaño. La generación automatizada de informes en una organización más analítica es la ubicación más común en la que se encuentra este perfil.
Herramientas utilizadas: R (marcos de datos), SQL


El modelador. Mente profundamente matemática, que puede aplicar inferencias bayesianas/frecuentistas o modelos jerárquicos. Probablemente estoy agrupando a demasiadas personas en un solo grupo, cuando las personas que analizan ensayos con fármacos, los científicos que modelan fenómenos complejos y las personas que utilizan modelos autorregresivos sobre acciones se agrupan en uno solo. El tema común aquí es que las matemáticas constituyen la base del trabajo.
Herramientas utilizadas: R es un lenguaje muy popular, Fortran, C++ y, a veces, funcionales.


El ingeniero de datos que también es un científico de datos ocasional. Toma una biblioteca de aquí, toma código de allí y crea algo lo suficientemente bueno mientras administras la canalización de datos. Las tareas más comunes de la ciencia de datos incluyen escribir programas para automatizar la generación de informes en Pandas, probar modelos sencillos de aprendizaje automático y (hoy en día) ejecutar una red neuronal previamente entrenada a partir de los datos
Herramientas: cadena de herramientas de Python, Pandas, nltk, Keras.



El ML'er tabular (o el especialista en XGBoost). Ardent Kaggler, puede entrenar múltiples algoritmos y apilar modelos y optimizarlos al máximo. Estos chicos tienen una amplia experiencia en la ejecución y optimización de algoritmos estándar, como los modelos XGBoost, Ridge Regression y (hoy en día) Keras.
Herramientas: Python o R, usa mucho XGB, Keras.


El ML'er a la antigua usanza. Cerca de 4, pero no se limita a modelos categóricos únicamente. Muy bueno en ingeniería de funciones. Esta era la única experiencia en aprendizaje automático hasta que apareció el nuevo perfil de aprendizaje profundo.
Herramientas: C++ /Python con Scikit Learn.



Chico de aprendizaje profundo. Necesita un sistema de GPU y un conjunto de datos bien etiquetado, y necesita probar arquitecturas y no realizar ingeniería de funciones. Dedicaré mucho tiempo a probar arquitecturas y muy poco a la ingeniería de funciones, pero la precisión será increíble.
Herramientas: Python, Theano, Tensorflow y bibliotecas de alto nivel como Keras.


El especialista en dominios. Sabe mucho sobre el dominio, algo sobre los modelos lineales. Codifica la información del dominio y, a partir de ahí, entrena un algoritmo lineal. Incluye ingenieros mecánicos, analistas de diferentes firmas y científicos de ciencias puras y aplicadas.
Herramientas: las diferentes especializaciones utilizan cosas diferentes. Matlab de ingenieros, C++/Fortran y, a veces, R/Python.


El novato. El becario. Evolucionará a cualquiera de las 7 categorías a las que pertenezca su mentor.
En ParallelDots, tenemos personas de tipo 2, 3, 4, 5 y 6. (y 8 si quieres unirte a nosotros a tiempo completo).


