Data Science

7 tipos de perfiles laborales que te convierten en científico de datos

Ankit Singh
February 24, 2017
mins read
Ready to get Started?
request A Demo

Así que sí, esta publicación puede parecer un poco un cebo de clics, pero te prometo que no es exactamente eso (bueno, un poco).

Hace poco recibí una pregunta en Quora sobre qué habilidades exactas buscan las empresas cuando contratan a un científico de datos. y ¿existe una definición de perfil de científico de datos? Como es bastante obvio, no hay un perfil único, ya que cada empresa resuelve su propio conjunto de problemas. Pero traté de crear algunos perfiles de trabajo genéricos que pudieran adaptarse de alguna manera a los JD de diferentes empresas. Creo que hay mucha más variedad, pero tuve que limitarme a un conjunto de perfiles, así que esta es la lista:

La R usando un calculador de números. Puede ejecutar agrupaciones rápidas y cuentas con números en R/Python. Este perfil es la versión codificada de Data Analyst de antaño. La generación automatizada de informes en una organización más analítica es la ubicación más común en la que se encuentra este perfil.
Herramientas utilizadas: R (marcos de datos), SQL

R_logo.svg
831px-SQL_ANATOMY_wiki.svg

El modelador. Mente profundamente matemática, que puede aplicar inferencias bayesianas/frecuentistas o modelos jerárquicos. Probablemente estoy agrupando a demasiadas personas en un solo grupo, cuando las personas que analizan ensayos con fármacos, los científicos que modelan fenómenos complejos y las personas que utilizan modelos autorregresivos sobre acciones se agrupan en uno solo. El tema común aquí es que las matemáticas constituyen la base del trabajo.
Herramientas utilizadas: R es un lenguaje muy popular, Fortran, C++ y, a veces, funcionales.

Mathematical_models_for_complex_systems


Eigen_Silly_Professor_135x135

El ingeniero de datos que también es un científico de datos ocasional. Toma una biblioteca de aquí, toma código de allí y crea algo lo suficientemente bueno mientras administras la canalización de datos. Las tareas más comunes de la ciencia de datos incluyen escribir programas para automatizar la generación de informes en Pandas, probar modelos sencillos de aprendizaje automático y (hoy en día) ejecutar una red neuronal previamente entrenada a partir de los datos
Herramientas: cadena de herramientas de Python, Pandas, nltk, Keras.

Python_logo_and_wordmark.svg


220px-Hadoop_logo.svg


pandas

El ML'er tabular (o el especialista en XGBoost). Ardent Kaggler, puede entrenar múltiples algoritmos y apilar modelos y optimizarlos al máximo. Estos chicos tienen una amplia experiencia en la ejecución y optimización de algoritmos estándar, como los modelos XGBoost, Ridge Regression y (hoy en día) Keras.
Herramientas: Python o R, usa mucho XGB, Keras.

xgboost


Keras_Logo

El ML'er a la antigua usanza. Cerca de 4, pero no se limita a modelos categóricos únicamente. Muy bueno en ingeniería de funciones. Esta era la única experiencia en aprendizaje automático hasta que apareció el nuevo perfil de aprendizaje profundo.
Herramientas: C++ /Python con Scikit Learn.

Scikit-learn_logo


dlib-logo


mlpack

Chico de aprendizaje profundo. Necesita un sistema de GPU y un conjunto de datos bien etiquetado, y necesita probar arquitecturas y no realizar ingeniería de funciones. Dedicaré mucho tiempo a probar arquitecturas y muy poco a la ingeniería de funciones, pero la precisión será increíble.
Herramientas: Python, Theano, Tensorflow y bibliotecas de alto nivel como Keras.

theano


TensorFlowLogo

El especialista en dominios. Sabe mucho sobre el dominio, algo sobre los modelos lineales. Codifica la información del dominio y, a partir de ahí, entrena un algoritmo lineal. Incluye ingenieros mecánicos, analistas de diferentes firmas y científicos de ciencias puras y aplicadas.
Herramientas: las diferentes especializaciones utilizan cosas diferentes. Matlab de ingenieros, C++/Fortran y, a veces, R/Python.

r-bioconductor-training


800px-NumericalRecipes3rdEdCover

El novato. El becario. Evolucionará a cualquiera de las 7 categorías a las que pertenezca su mentor.

En ParallelDots, tenemos personas de tipo 2, 3, 4, 5 y 6. (y 8 si quieres unirte a nosotros a tiempo completo).

Así que sí, esta publicación puede parecer un poco un cebo de clics, pero te prometo que no es exactamente eso (bueno, un poco).

Hace poco recibí una pregunta en Quora sobre qué habilidades exactas buscan las empresas cuando contratan a un científico de datos. y ¿existe una definición de perfil de científico de datos? Como es bastante obvio, no hay un perfil único, ya que cada empresa resuelve su propio conjunto de problemas. Pero traté de crear algunos perfiles de trabajo genéricos que pudieran adaptarse de alguna manera a los JD de diferentes empresas. Creo que hay mucha más variedad, pero tuve que limitarme a un conjunto de perfiles, así que esta es la lista:

La R usando un calculador de números. Puede ejecutar agrupaciones rápidas y cuentas con números en R/Python. Este perfil es la versión codificada de Data Analyst de antaño. La generación automatizada de informes en una organización más analítica es la ubicación más común en la que se encuentra este perfil.
Herramientas utilizadas: R (marcos de datos), SQL

R_logo.svg
831px-SQL_ANATOMY_wiki.svg

El modelador. Mente profundamente matemática, que puede aplicar inferencias bayesianas/frecuentistas o modelos jerárquicos. Probablemente estoy agrupando a demasiadas personas en un solo grupo, cuando las personas que analizan ensayos con fármacos, los científicos que modelan fenómenos complejos y las personas que utilizan modelos autorregresivos sobre acciones se agrupan en uno solo. El tema común aquí es que las matemáticas constituyen la base del trabajo.
Herramientas utilizadas: R es un lenguaje muy popular, Fortran, C++ y, a veces, funcionales.

Mathematical_models_for_complex_systems


Eigen_Silly_Professor_135x135

El ingeniero de datos que también es un científico de datos ocasional. Toma una biblioteca de aquí, toma código de allí y crea algo lo suficientemente bueno mientras administras la canalización de datos. Las tareas más comunes de la ciencia de datos incluyen escribir programas para automatizar la generación de informes en Pandas, probar modelos sencillos de aprendizaje automático y (hoy en día) ejecutar una red neuronal previamente entrenada a partir de los datos
Herramientas: cadena de herramientas de Python, Pandas, nltk, Keras.

Python_logo_and_wordmark.svg


220px-Hadoop_logo.svg


pandas

El ML'er tabular (o el especialista en XGBoost). Ardent Kaggler, puede entrenar múltiples algoritmos y apilar modelos y optimizarlos al máximo. Estos chicos tienen una amplia experiencia en la ejecución y optimización de algoritmos estándar, como los modelos XGBoost, Ridge Regression y (hoy en día) Keras.
Herramientas: Python o R, usa mucho XGB, Keras.

xgboost


Keras_Logo

El ML'er a la antigua usanza. Cerca de 4, pero no se limita a modelos categóricos únicamente. Muy bueno en ingeniería de funciones. Esta era la única experiencia en aprendizaje automático hasta que apareció el nuevo perfil de aprendizaje profundo.
Herramientas: C++ /Python con Scikit Learn.

Scikit-learn_logo


dlib-logo


mlpack

Chico de aprendizaje profundo. Necesita un sistema de GPU y un conjunto de datos bien etiquetado, y necesita probar arquitecturas y no realizar ingeniería de funciones. Dedicaré mucho tiempo a probar arquitecturas y muy poco a la ingeniería de funciones, pero la precisión será increíble.
Herramientas: Python, Theano, Tensorflow y bibliotecas de alto nivel como Keras.

theano


TensorFlowLogo

El especialista en dominios. Sabe mucho sobre el dominio, algo sobre los modelos lineales. Codifica la información del dominio y, a partir de ahí, entrena un algoritmo lineal. Incluye ingenieros mecánicos, analistas de diferentes firmas y científicos de ciencias puras y aplicadas.
Herramientas: las diferentes especializaciones utilizan cosas diferentes. Matlab de ingenieros, C++/Fortran y, a veces, R/Python.

r-bioconductor-training


800px-NumericalRecipes3rdEdCover

El novato. El becario. Evolucionará a cualquiera de las 7 categorías a las que pertenezca su mentor.

En ParallelDots, tenemos personas de tipo 2, 3, 4, 5 y 6. (y 8 si quieres unirte a nosotros a tiempo completo).