Also ja, dieser Beitrag sieht vielleicht ein bisschen wie ein Clickbait aus, aber ich verspreche dir, dass es nicht genau das ist (naja irgendwie).
Ich habe kürzlich eine Frage auf Quora erhalten, in der es darum geht, nach welchen Fähigkeiten genau suchen Unternehmen, wenn sie einen Data Scientist rekrutieren? und gibt es eine Definition des Profils eines Datenwissenschaftlers? Es ist ziemlich offensichtlich, dass es kein Profil gibt, da jedes Unternehmen seine eigenen Probleme löst. Aber ich habe versucht, ein paar generische Jobprofile zu erstellen, die in gewisser Weise zu JDs verschiedener Unternehmen passen. Ich denke, es gibt viel zu viel Abwechslung, aber ich musste mich auf eine Reihe von Profilen eingrenzen, also hier ist die Liste:
Das R mit Number-Cruncher. Kann schnell Group Bys und Counts on Numbers in R/Python ausführen. Dieses Profil ist die Codierungsversion von Data Analyst aus früheren Tagen. Die automatische Berichtsgenerierung in einer eher analytischen Organisation ist der häufigste Ort, an dem man dieses Profil findet.
Verwendete Tools: R (Datenrahmen), SQL


Der Modellbauer. Hochgradig mathematischer Verstand, der bayesianische/frequentistische Inferenzen oder hierarchische Modelle anwenden kann. Wahrscheinlich fasse ich hier zu viele Menschen zu einer einzigen Gruppe zusammen, wenn Leute, die Arzneimittelstudien analysieren, Wissenschaftler, die komplexe Phänomene modellieren, und Leute, die autoregressive Modelle für Aktien durchführen, zu einer Gruppe zusammengefasst werden. Das gemeinsame Thema hier ist, dass Mathematik die Grundlage der Arbeit bildet
Verwendete Tools: R ist sehr beliebt, Fortran, C++ und manchmal funktionale Sprachen.


Der Dateningenieur, der gelegentlich auch Datenwissenschaftler ist. Nehmen Sie eine Bibliothek von hier, nehmen Sie etwas Code von dort und machen Sie etwas, das gut genug ist, während Sie die Datenpipeline verwalten. Zu den Aufgaben im Bereich Data Science gehören das Schreiben von Programmen zur Automatisierung der Berichtsgenerierung in Pandas, das Ausprobieren einfacher Machine-Learning-Modelle und (heutzutage) der Betrieb eines vortrainierten neuronalen Netzwerks auf den Daten
Werkzeuge: Python-Werkzeugkette, Pandas, nltk, Keras.



Der tabellarische ML'er (oder der XGBoost-Spezialist). Ardent Kaggler kann mehrere Algorithmen und Stack-Modelle trainieren und sie bis ins Detail optimieren. Diese Leute verfügen über fundiertes Fachwissen in der Ausführung und Optimierung von Standardalgorithmen wie XGBoost, Ridge Regression und (heutzutage) Keras-Modellen.
Tools: Python oder R, verwendet XGB, Keras viel.


Die altmodischen Ml'er. Fast 4, aber nicht nur auf kategorische Modelle beschränkt. Sehr gut im Feature-Engineering. Dies war die einzige Expertise im Bereich maschinelles Lernen, bis das neuere Deep-Learning-Profil veröffentlicht wurde.
Werkzeuge: C++/Python mit Scikit Learn.



Der Typ für tiefes Lernen. Benötigt ein GPU-System und einen gut markierten Datensatz und muss Architekturen ausprobieren und kein Feature-Engineering durchführen. Ich werde viel Zeit damit verbringen, Architekturen auszuprobieren und wenig Zeit mit Feature-Engineering, aber die Genauigkeit wird wahnsinnig sein.
Tools: Python, Theano, Tensorflow und High-Level-Bibliotheken wie Keras.


Der Domain-Spezialist. Weiß viel über Domänen, etwas über lineare Modelle. Kodiert die Domäneninformationen und trainiert obendrein einen linearen Algorithmus. Dazu gehören Maschinenbauingenieure, Analysten verschiedener Unternehmen und Wissenschaftler der reinen oder angewandten Wissenschaften.
Tools: Verschiedene Spezialisierungen verwenden unterschiedliche Dinge. Matlab von Engineers, C++/Fortran und manchmal R/Python.


Der Neuling. Der Praktikant. Wird sich in die der 7 Kategorien weiterentwickeln, zu der sein/ihr Mentor gehört.
Bei ParallelDots haben wir Leute vom Typ 2,3,4,5 und 6. (und 8, wenn du Vollzeit zu uns kommen willst).

.jpg)