La ciencia de datos es un campo interdisciplinario que contiene métodos y técnicas de campos como la estadística, el aprendizaje automático, el bayesiano, etc. Todos tienen como objetivo generar información específica a partir de los datos. En este artículo, enumeramos algunos libros excelentes sobre ciencia de datos que cubren la amplia variedad de temas relacionados con la ciencia de datos.
1. El elemento del estilo analítico de datos

Este libro ofrece una visión general de la ciencia de datos. La ciencia de datos es un término genérico muy amplio y este libro es ideal para cualquiera que intente mojarse los pies en el campo por primera vez. Léalo para entender qué es la ciencia de datos, cuáles son algunas tareas y algoritmos generales y algunos consejos y trucos generales.
2. Fundamentos de la ciencia de datos
Fundamentos de la ciencia de datos es un tratado sobre campos seleccionados que forman la base de la ciencia de datos, como el álgebra lineal, la LDA, las cadenas de Markov, los conceptos básicos del aprendizaje automático y la estadística. Los lectores ideales del libro son los científicos de datos principiantes que desean mejorar sus conocimientos matemáticos y teóricos sobre el terreno.
3. Minería de conjuntos de datos masivos
Basado en los cursos CS246 y CS35A de Stanford, el libro ayuda a los usuarios a aprender temas para la minería de datos en grandes conjuntos de datos. A menudo, un problema muy común que debe resolver un científico de datos es realizar tareas numéricas sencillas (que se pueden realizar escribiendo pequeños fragmentos de programas) en un conjunto de datos muy grande. MMDS trabaja exactamente en ese sentido. Además, tiene temas como la reducción de la dimensionalidad y los sistemas de recomendación, que le ayudarán a aprender sobre la aplicación del álgebra lineal y las distancias métricas en el mundo real. Una lectura absolutamente imprescindible para todos los científicos de datos.
4. Manual de ciencia de datos de Python

El Manual de ciencia de datos de Python enseña la aplicación de varios conceptos de ciencia de datos en Python. Probablemente el mejor libro para aprender ciencia de datos en Python (el único equivalente es El libro sobre ratones de Wes McKinney), este libro también se puede leer gratis en Github. Así podrás aprender sin gastar dinero.
5. Aprendizaje automático práctico y big data

6. Piensa en las estadísticas

Think Stats enseña a los lectores los conceptos básicos de la estadística, es decir, los lectores aplicarán conceptos y distribuciones estadísticas en conjuntos de datos del mundo real e intentarán aprender más sobre los datos utilizando características matemáticas. Probablemente uno de los mejores libros para empezar si quieres aprender estadística con Python.
7. Piensa en Bayes

La estadística bayesiana funciona de forma algo diferente a la estadística normal. Los conceptos de incertidumbre y ajuste de las distribuciones a los conjuntos de datos del mundo real hacen que los métodos bayesianos sean más adecuados para aprender sobre los conjuntos de datos del mundo real. El genial estilo del profesor Downey de «aprende programando en Python» hace que el libro sea una delicia para quienes se están iniciando en los métodos bayesianos.
8. Introducción a los sistemas dinámicos lineales
Este libro enseña el álgebra lineal aplicada en sistemas del mundo real. Las aplicaciones incluyen circuitos, procesamiento de señales, comunicaciones y sistemas de control. Se puede encontrar un enlace a los apuntes de cursos de años anteriores del profesor Boyd aquí.
9. Optimización convexa

La optimización convexa es lo que muchos algoritmos de aprendizaje automático (y casi todos los algoritmos de aprendizaje profundo) utilizan en segundo plano para llegar al conjunto óptimo de parámetros.
10. Fundamentos de la metaheurística

Las metaheurísticas son formas probabilísticas de aprendizaje rápido de realizar tareas que, de otro modo, requerirían escribir programas para realizar búsquedas mediante la fuerza bruta. Tal vez en el caso de datos pequeños, los enfoques de fuerza bruta requieren menos esfuerzo de implementación, pero se agotan muy rápido con la cantidad de datos que se agregan. Este libro es probablemente la mejor introducción a los métodos metaheurísticos como los algoritmos genéticos, la escalada de colinas, la coevolución y el aprendizaje por refuerzo (básico).
11. Aprendizaje automático en Python: principales desarrollos y tendencias tecnológicas en ciencia de datos, aprendizaje automático e inteligencia artificial
Una buena descripción general de las herramientas de Python en la ciencia de datos. Un documento muy bueno para un desarrollador experimentado de Python que quiera dedicarse a la ciencia de datos o para alguien que se esté mudando a Python desde R for Data Science. En general, si quieres entender lo que Python puede hacer por la ciencia de datos, deberías leer este artículo.
12. Ciencia de datos aplicada

Applied Data Science de Langmore y Krasner es un libro que adopta un enfoque muy práctico para enseñar ciencia de datos. Partiendo del uso de Git y la enseñanza de Python básico, el libro pasa a desarrollar los fundamentos de varios algoritmos que se utilizan con frecuencia en el campo de la ciencia de datos.
13. Libro de bandidos
A medida que se acumulan más y más datos, la toma de decisiones ya no es una función de la intuición sino una función de los datos recopilados. ¿Cuál es el color correcto de un botón de compra en un sitio web de comercio electrónico para realizar pruebas de drogas y tomar decisiones sobre carteras financieras? Los algoritmos de bandido se utilizan en todas partes. ¡Un libro muy bueno para familiarizarse con el «bandolerismo»!
14. Algoritmos anotados
Un libro que te enseña a codificar muchos algoritmos numéricos en Python. Un recurso excelente si quieres aprender cómo se implementan los programas matemáticos o quieres aprender Python con interesantes enunciados de problemas.
15. Inferencia estadística de la era de la computadora

Un libro de Efron y el legendario Hastie que piensa cómo la inferencia estadística (tanto frecuentista como bayesiana) debería realizarse en los tiempos modernos utilizando la potencia computacional disponible hoy en día en lugar del enfoque de lápiz y papel que adoptan la mayoría de los demás libros. Es una lectura obligada para cualquier persona (principiante o con experiencia) que pretenda utilizar la estadística en la vida real.
16. Libro de inferencia causal
«La correlación no es causalidad» es una frase que los científicos de datos utilizan mucho. Pero, ¿cómo separar los dos? Este libro proporciona respuestas al describir las técnicas de inferencia causal a los científicos de datos. Necesitarás buenos conocimientos básicos de probabilidad para leerlo, no para principiantes.
17. Transporte óptimo computacional
El transporte óptimo es la matemática de la asignación de un conjunto de distribuciones a otro. Este es probablemente uno de los pocos campos de la ciencia de datos que ha ganado más de una medalla Fields (el máximo galardón en matemáticas). Los conceptos matemáticos se utilizan en muchos algoritmos de aprendizaje automático y aprendizaje profundo como métricas de distancia y para la resolución de problemas relacionados con tareas.
18. Álgebra, topología, cálculo diferencial y teoría de la optimización para la informática y el aprendizaje automático
El libro tiene como objetivo enseñar varios campos matemáticos requeridos en Ciencias de la Computación y Aprendizaje Automático. Bastante matemático y un buen recurso para aquellos que desean ingresar a la ciencia de datos desde campos pesados de matemáticas.
19. Minería y análisis de datos

La minería de datos, como puede haber visto en el libro más famoso de MMDS mencionado anteriormente, es un método para realizar cálculos de manera efectiva en un conjunto de datos grande. Estos cálculos se pueden realizar mediante métodos de fuerza bruta y pueden funcionar bien en conjuntos de datos pequeños, pero pueden tardar mucho tiempo en ejecutarse en conjuntos de datos grandes. Un buen libro introductorio y de referencia para la minería de datos.
20. Pensamiento computacional e inferencial
Analiza varios aspectos de la ciencia de datos, desde la programación en Python, la causalidad, las tablas, la visualización y las estadísticas básicas. Proviene de un curso básico en la Universidad de California en Berkeley, por lo que es un buen recurso para principiantes.
21. Fundamentos matemáticos de la ciencia de datos

Como su nombre indica, el libro ofrece y explica un tratado matemático detrás de conceptos de ciencia de datos como la optimización convexa y la reducción de dimensionalidad. Este libro se recomienda si te gustan las matemáticas o si estás buscando específicamente aprender las matemáticas detrás de estos conceptos.
22. Teoría de la información para personas inteligentes
La teoría de la información es una de las cuatro teorías matemáticas que encontrará en la ciencia de datos junto con el álgebra lineal, la optimización convexa y la estadística. Este es un buen tutorial para entender la teoría. Lo bueno es que el tutorial es accesible para principiantes.
23. Introducción al álgebra lineal aplicada: el libro VMLS

Mi libro de álgebra lineal favorito de los muchos que mencionaré en esta lista. Es accesible para principiantes y tiene una sensación muy aplicada, por lo que el lector no se pierde en muchos conceptos matemáticos.
24. Álgebra lineal — Hefferon

Muchas personas creen que son los mejores recursos de álgebra lineal para principiantes disponibles después de la Biblia de Strang. También es muy aplicado (ejercicios de programación en SAGE, que es básicamente Python), pero más para principiantes que para profesionales.
25. Álgebra lineal: como introducción a las matemáticas abstractas
Este libro se parece a mi libro de álgebra lineal de la universidad (que fue amado por muchos estudiantes que estudiaron ingeniería conmigo). Me pierdo un poco cuando hay demasiadas matemáticas y un poco menos de aplicaciones, pero muchos disfrutarían de la elegancia de esos libros.
26. Fundamentos del álgebra lineal y las optimizaciones
Este libro combina álgebra lineal con algoritmos de optimización. Una vez más, más libros orientados a las matemáticas para personas a las que les gusta este estilo.
27. Apuntes de clase de álgebra lineal - Lerner
Me pareció muy bueno, es como mostrarte múltiples problemas resueltos para que aprendas. No hay tanto rigor como en libros anteriores y se aprende más mostrando. Un buen repaso para las personas que no han tocado el álgebra lineal durante mucho tiempo.
28. Apuntes de clase sobre álgebra lineal aleatorizada
No todo el mundo necesitará leer el libro, ya que trata sobre algoritmos probabilísticos para resolver problemas de álgebra lineal. Es útil si trabajas con matrices y vectores grandes, donde los algoritmos simples no funcionarán.
29. Linear Algebra via Exterior Products
A very different way to look at Linear Algebra. If you find Linear Algebra cool, you should try visualizing problems in this new way.
30. Linear Algebra – Cherney et al
Another free book for college-level Linear Algebra. Good for beginners. It also comes with homework problems if you want to practice.
31. The Matrix Calculus you need for Deep Learning
As the name suggests, the tutorial helps you understand the Matrix Calculus you require for Deep Learning.
32. Optimization: An Introduction
Optimizing parameters is required in problems across Engineering fields. While Convex Optimization is used in many Deep Learning algorithms, knowing about other algorithms like Linear Programming, Simplex broadens one's horizons.
33. Scipy Lecture Notes

If you are going to work in Data Science, you will need to learn the scientific Python stack. Probably the best common tutorial to learn Numpy, Scipy, Scikit-Learn, Scikit-Image and all the libraries you need.
34. Pandas Mega Tutorial
This huge tutorial is by the Pandas development team to learn and understand the library. Pandas is a must-learn library if you are working in Data Science. There is no escape.
35. Kalman and Bayesian Filters in Python
Kalman Filters and other Bayesian Filters are useful when working with noisy data coming with time which can be fitted to a certain model with parameters to be deduced. The twofold thing these models do is deduce the parameters as well as model the noise. Though most commonly used examples are location data, similar filters can work things well in forecasting too. (Also available at Github)
36. Statistical Inference for Data Science

We have looked at multiple Statistical Inference books before this, but this one is written especially keeping Data Scientists in mind. If you are a Data Scientist, trying to get a quick handle on statistical inference, this is your book.
37. Mathematics for Machine Learning

A detailed book teaching you Mathematics needed to make sense of most of the Machine Learning Algorithms out there. Beginner's friendly.
38. Seeing Theory
A book that makes learning probability easy by using interactive visualizations.
39. Basics of Statistics
A book introducing you to the study of statistics. Beginners who have never learned statistics should start here.
40. Open Statistics
Combination of a book and video lectures introducing readers to Statistics.
41. Advanced Data analysis From an Elementary Point of View
A general introduction to different concepts of Data Science. This includes causal models, regression models, factor models and so on. The sample programs are in R.
42. Fast Data, Smart and at Scale
Book explaining optimizing databases for fast querying. It tells about various possible models in the real world.
43. Introduction to Multi-Armed Bandits
Multi-Armed Bandits are algorithms that take a decision over time under uncertainty. This book is an introductory treatise on multi-armed bandits.
44. Quant Economics Lectures
Lectures on Quantitative economics and code in your favorite programming languages: Python or Julia.
45. Statistics With Julia
Statistician learning Julia or (somewhat less probable) Julia programmer learning statistics? Try this book.
46. Information Theory, Inference and Learning Algorithms
Information Theory and Inference are generally dealt with differently, but late Prof. MacKay’s book tries to tackle both the subjects.
47. Scientific Improvement of Decision Making and Risk Management
A not too technical tutorial around probabilistic decision making.
48. Thirty-three Miniatures: Mathematical and Algorithmic Applications of Linear Algebra
This is not really a book on Linear Algebra, but rather a few cool applications of Linear Algebra compiled into a book.
49. A Genetic Algorithm Tutorial
Genetic Algorithms are tools that all Data Scientists need to use sometime in their life. This tutorial helps beginners understand how Genetic Algorithms work.
50. Computing in Operations Research using Julia
If you are working on queuing or other operational research problems, Julia might be a programming language you might like a lot. The programs are easily readable like Python and run blazingly fast.
If you are a budding Data Scientist and think you have what it takes to work in the field, send in your resume to get a chance to be part of the ParallelDots data science team.


