Recientemente se habilitó a las IA para que les subas tu base de datos, le pidas que haga análisis y te regresen resultados.
Tu rol como econometrista ya no implica llevar toda la carga del análisis de datos desde el inicio. Ahora es posible delegar una parte significativa de ese trabajo a tu asistente, la inteligencia artificial. Con una base de datos y una orden, tienes resultados e interpretaciones en minutos.
El truco está en tener bien claras las capacidades y los límites de la IA
En esta edición veremos:
- Los límites de la IA en el análisis de datos.
- Nuestro rol colaborando con la IA.
- Y una guía (con prompts) para trabajar con datos con la IA como copiloto cuando no es posible pedirle que trabaje con tus datos directamente.
¿Y no puedo simplemente pedirle a chatGPT que haga todo mi análisis?
Por fortuna, no.
Si pudiéramos pedir a la IA que haga todo nuestro análisis, ahí si estaría en peligro nuestro trabajo. Pero la realidad es que ni chatGPT ni Claude ni ninguna otra IA tiene la creatividad para elegir proyectos que resuelvan problemas reales. Y si bien le puedes pedir que hagan una interpretación de una tabla de regresión, sus conclusiones son en el mejor de los casos “robóticas”.
Hay dos peligros de delegar el análisis de datos a la Inteligencia Artificial:
- Puede empezar a alucinar aspectos importantes de tus datos. Cuando una inteligencia artificial no sabe alguna respuesta, siempre está el peligro de que se invente la respuesta.
- Cuando los conjuntos de datos son demasiado grandes, el sistema no les permite cargar la información en memoria. En estos casos no hay mucho que se pueda hacer, pero en esta guía te daré una forma de avanzar de cualquier manera.
Quiero que pienses en chatGPT como tu becario.
Imagina que ponen a tu cargo a un becario muy inteligente, con mucho conocimiento y con mucha habilidad para manejar datos. El problema es que no conoce bien los objetivos que tú tienes con la investigación y tiene mala memoria, así que eso es algo que le tienes que explicar siempre que vas a trabajar con él.
Por naturaleza, los modelos de inteligencia son máquinas aleatorias. Cada vez que le haces una petición, te dará la respuesta que tiene mayor probabilidad de acuerdo a sus datos de entrenamiento. Cuando lo que necesitas hacer requiere precisión, necesitas tener esto en cuenta.
Tu rol es el de supervisor
Como supervisor, tu trabajo es tener siempre bien claro el objetivo y el problema que quieres resolver.
Es muy diferente el trabajo que le vas a pedir a tu becario, que es quien tiene el conocimiento técnico. Por ejemplo, si le das una base de datos sencilla, le puedes pedir que elabore por ti gráficos, estudios de correlación y análisis de regresión directamente.
Comencemos con el análisis.
Paso #0: Antes de comenzar
Estos pasos se pueden hacer con chatGPT en la versión 4o o con Claude 3.5. En ambos casos, tienes que ser capaz de subirle bases de datos y pedirle que haga el análisis por su cuenta.
El modelo de chatGPT trabaja con python. Es como si tuvieras del otro lado a un becario trabajando en google Colab que no puede descargarle ningún módulo nuevo aparte de los que ya tiene instalados. Tiene muchos de los módulos más importantes para trabajar con datos, pero si le pides algo más complejo, no lo podrá hacer.
Paso #1: Escribe toda la información sobre la base de datos con la que vas a trabajar
Entender la base sobre la que estás trabajando no es negociable.
Esta parte del proceso la puedes acelerar buscando el diccionario de datos o la descripción que hicieron los creadores de la base de datos. Si es una base de datos que descargaste de algún instituto de estadística, busca la descripción. Si tú eres el creador de los datos, documenta el proceso completo y descríbelo con tanto detalle como te sea posible.
Vamos a usar esta información para que chatGPT tenga el contexto necesario sobre la base de datos para darnos una buena perspectiva al respecto.
Paso #2: Asegúrate que los datos son claros, o agrega un diccionario de datos
Cuando le pases tus datos a chatGPT, si los nombres de tus columnas son claves (p. ej. P_13_1
para la pregunta 13.1), será difícil hacer análisis significativos. Será como ir con los ojos vendados.
La IA recordará el diccionario de datos al momento de sugerir análisis y ejecutarlos.
Incluso te servirá para hacer las etiquetas de los gráficos.
Si estás en este caso, un diccionario no es más que una lista con los nombres de las variables y una descripción. Entre más detallada sea la descripción, más útil es el diccionario.
Paso #3: ¿Cuáles son los tipos de análisis que podemos hacer con estos datos?
Usa el siguiente prompt
Observa la siguiente base de datos.
Considera el siguiente contexto sobre esta base de datos:
{COPIA Y PEGA AQUÍ EL CONTEXTO QUE RECOPILASTE EN EL PASO #1}
---
Dame una lista con los tipos de análisis que consideres más reveladores.
Modifica el prompt copiando y pegando el contexto del paso #1.
La IA usará la función data.head()
en python para leer las primeras filas de tu base de datos. Si los nombres de las variables son claros, los análisis que te sugerirá serán muy útiles y por lo general se trata de cosas que sí puede hacer.
Paso #4: Pídele que haga el análisis
Aquí entra tu criterio sobre el tema y los objetivos que tengas de tu investigación.
Es muy probable que dentro de la lista que generó se encuentre algo cercano a lo que deseas hacer. Por ejemplo, le puedes pedir que hagas un análisis de distribución.
Hagamos la opción 1: análisis de distribución
O puedes simplemente dejarlo hasta el número dentro de la lista.
La IA tiende mucho a hacer análisis con fines de predicción y no tanto de inferencia, por eso te encontrarás casi siempre opciones como PCA o redes neuronales. No te recomiendo comenzar por ahí, pero puedes considerarlo para el futuro.
Si chatGPT no lo puede hacer, úsalo como asesor
Hay circunstancias en las que chatGPT no te podrá ayudar.
- Cuando los datos son demasiado grandes.
- Cuando estás usando modelos avanzados (p. ej. quieres hacer un análisis de diferencias en diferencias escalonado).
- Cuando quieres trabajar en cualquier lenguaje de programación que no sea python.
En estos casos, los pasos anteriores no te servirán.
Pero puedes usar a chatGPT como tu asesor que estará sobre tu hombro dándote direcciones para trabajar.
En este caso, lo que debes hacer es proporcionarle sólo una muestra de los datos para que conozca su estructura y los nombres de las variables y pedirle instrucciones paso a paso sobre los resultados que vas obteniendo.
Así te ahorras horas de trabajo.