Cada vez es más importante la habilidad de obtener información valiosa a partir de los datos. Sin embargo, entrar al mundo de la ciencia de datos puede ser abrumador o confuso para alguien que quiere iniciar. Por esta razón, preparé una lista de herramientas esenciales para las personas interesadas en jugar con datos.
Coding
No te asustes; nadie nace sabiendo programar y sólo es cuestión de práctica. Además, es indispensable conocer algún lenguaje de programación para tu aventura en el mundo de los datos. Python y R son los lenguajes más populares para la ciencia de datos. Ambas son excelentes opciones que puedes utilizar de manera gratuita, así que no te preocupes demasiado por cuál elegir.
- Python: Es un lenguaje muy flexible y su curva de aprendizaje es muy amigable comparado con otros lenguajes.
- R: R nació para ser usado para el análisis y la visualización de data.
Análisis
- Excel: Si bien excel tiene muchas limitantes para trabajar con grandes volúmenes de datos, es una herramienta útil para exploraciones y análisis sencillos.
- Google Sheets: Es la versión de hoja de cálculo de Google. En terminos generales es muy similar a Excel, pero con la diferencia de ser de uso gratuito.
- Pandas (Python): Es una librería de Python pensada para el análisis y la manipulación de datos.
- R: Sé que incluí R en los lenguajes de programación, sin embargo R es muy bueno para el análisis y manipulación de datos de manera nativa. De hecho, pandas está inspirado en los DataFrames de R.
Visualización
- Tableau: Es una herramienta de Business Intelligence. Es una herramienta muy popular para la creación de dashboards. Tableau permite crear visualizaciones sin necesidad de programar.
- Power BI: Es la versión de Microsoft para Business Intelligence. Al igual que Tableau se utiliza mucho para la creación de dashboards y no requiere conocimientos de programación para usarse.
- ggplot2 (R): ggplot2 es un paquete de R para visualizar datos. ggplot2 se basa en el principio de la gramática de los gráficos. Su curva de aprendizaje es pronunciada, pero programar tus propias visualizaciones te brinda una flexibilidad enorme.
- matplotlib (Python): matplotlib es una librería para crear visualizaciones en python. Al igual que ggplot2 te brinda posibilidades infinitas al permitirte programar tus gráficas. Eso sí, la lógica entre matplotlib y ggplot2 es completamente distinta.
Workflow tools
- Rstudio (R): Rstudio es un IDE para R. Basicamente Rstudio hace tu vida más fácil cuando trabajas con R ya que incluye una consola, detecta errores de sintaxis, permite ejecutar código, entre otras herramientas. Si usas R, Rstudio es indispensable.
- Spyder IDE (Python): Spyder es un IDE para Python. Al igual que Rstudio, Spyder te facilita la vida al trabajar con Python.
- Atom: Atom es un editor de texto con características muy útiles . Atom es ideal para escribir scripts de Python, R y muchos lenguajes más. Además, es código abierto.
- Jupyter: Jupyter es un entorno de desarrollo interactivo que te permite utilizar bloques de código y bloques de texto. Esta herramienta es ideal para documentar y compartir proyectos de análisis de datos. Jupyter soporta diversos lenguajes de programación y por supuesto que Python y R están incluidos.
Misceláneos
- Anaconda: Si quieres una opción práctica para empezar a jugar con datos sin preocuparte por instalar muchas cosas manualmente, Anaconda es la opción. Anaconda es un toolkit para Ciencia de Datos que incluye diversas herramientas como Python, R y Jupyter.
¿Utilizas alguna otra herramienta que consideres esencial? ¡Compártela en los comentarios!