La guía definitiva para elegir entorno en ciencia de datos

La guía definitiva para elegir entorno en ciencia de datos
Photo by Boitumelo Phetla / Unsplash

¡Felicidades! Has decidido entrar en el mundo de los datos. Seguramente estás muy emocionada(o) y con muchas ganas de aprender. Pero probablemente en ocasiones también te sientas abrumada(o) al ver tantas opciones de lenguajes de programación y entornos de trabajo. Lo sé, así me he sentido antes.

Este post es tu guía de entornos de trabajo, independientemente del lenguaje de programación que elijas, que sobre ese tema hablamos un poco más adelante.

La primera decisión que debes de tomar es si vas a trabajar en un entorno local o vas a usar tu navegador con algún servicio que te ayude a correr el código en la nube.

Si estás empezando, entonces la respuesta es sencilla: comienza en un entorno desde el navegador. Yo personalmente te recomiendo Google Colab, donde puedes usar un notebook en la nube que corre Python.

Una gran ventaja que tiene esta opción es que no necesitas abrumarte en un inicio con conocer cómo funcionan los módulos o en entender sobre entornos virtuales ni nada de eso. Simplemente comienzas a escribir y cómo magia empiezas a ver los resultados. Últimamente he estado utilizando mucho esta opción para enseñar estos temas, con muy buenos resultados.

Por otro lado, si ya tienes un poco más de experiencia, puedes comenzar a probar descargar el lenguaje en tu computadora y trabajar en un entorno local. Si trabajas en R, generalmente es buena idea usar RStudio para complementar el ambiente de desarrollo, pues este permite trabajar de una manera muy dinámica y experimentar con los resultados de un script conforme lo vas creando. Como veremos más adelante, esto es algo que es muy deseable en un ambiente de experimentación.

¿Qué sistema operativo necesito?

En realidad, cualquier sistema operativo es bueno para trabajar en ciencia de datos, pero si tu quieres llegar a un nivel profesional, los ambientes preferidos son los ambientes basados en Unix: Linux o Mac.

La razón principal de esto es la terminal, que es el mismo sistema en ambos casos. Antes esto era un problema para quienes usaban Windows, problema que encontró solución con WSL, que permite usar la consola de manera natural.

La consola es importante porque muchos paquetes, lenguajes y sub-sistemas operan desde esta. Si quieres llegar a un nivel alto en tu camino como científica o científico de datos, es necesario que aprendas a usar la terminal. Esto lo veremos en posts futuros.

Suscríbete gratis al boletín

¿Por donde empiezo?

Ahora que hemos identificado los sistemas operativos y algunos entornos, hablemos sobre cómo comenzar. En esta sección hablaremos de los lenguajes de programación, pero también este tema lo tocaremos con más profundidad en publicaciones posteriores

¿Qué lenguage de programación es mejor?

Nuevamente, te tengo que decepcionar y no te podré dar una única respuesta definitiva. En cambio, te daré algunas opciones que podrían ser útiles para ti según tu perfil y objetivos a largo plazo.

  • R. Uno de los mejores lenguajes para trabajar ciencia de datos es R. R fue creado especialmente para trabajar con estadística y trabaja muy bien con bases de datos. También tiene acceso a librerías especializadas en el área que permiten aplicar los modelos más nuevos inmediatamente. Si alguna librería no está en el CRAN (el catálogo oficial de librerías para R) puedes descargarlas de algún repositorio de GitHub sin problemas. Otra de las ventajas que tiene R son sus paqueterías para visualización nativas, que en mi opinión son muy superiores a las disponibles en casi todos los lenguajes. Una desventaja de R es que no es muy escalable ni se integra de una manera sencilla con procesos automatizados de análisis.
  • Python. Este es sin duda uno de los lenguajes de mayor crecimiento en los últimos años. Al igual que R, Python es open source y tiene librerías fantásticas especializadas en el análisis y visualización de datos. Una de las mayores ventajas de Python es que es un lenguaje general con el que se puede hacer muchas cosas además de ciencia de datos. Por ejemplo, es posible hacer una API con Flask o Django que se integre con el análisis de datos.
  • SQL. Independientemente de los lenguajes anteriores, siempre es buena idea tener bases sólidas de las estructuras de bases de datos. Esto incluye el uso de bases de datos relacionales como SQL. Si tus proyectos son más grandes y requieren de uso de Big Data, probablemente ahí se tenga que llegar a bases de datos en grafos o NoSQL.

Notebooks

En 2001, Fernando Pérez, un físico, programador y promotor del software libre sacó al público una innovación que cambiaría la forma de trabajar datos para siempre.

Uno de los problemas de los scripts de código es que el análisis de datos requiere de mucha experimentación. Los scripts generalmente se suelen correr completos, pero en ocasiones sólo necesitas correr pequeños bloques de código.

Para esto IPython y las notebooks son una solución que permiten correr bloques del lenguaje de manera interactiva. El proyecto ha evolucionado a libretas de Jupyter, que permiten hacer justamente eso en un ciclo REPL (Read Evaluate Print Loop).

Comienza tu camino en la ciencia de datos

Has aprendido las bases y ahora tienes las herramientas para comenzar a trabajar en tu entorno de ciencia de datos. Comienza hoy mismo a realizar tu primer proyecto de ciencia de datos y cuéntame cómo te fue.


¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Escribe tu primer paper de Economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.

Sígueme en Mastodon