Guido Imbens, Premio Nobel de Economía en Chile: ¿qué es la inferencia causal?

Nota de la editora: la semana pasada, Fintual trajo a Chile al premio Nobel de economía Guido Imbens, quien dio una charla en el seminario “Presente y Futuro de la Inteligencia Artificial y la Ciencia de Datos en América Latina”. En Fintualist queríamos entender el aporte de Imbens de forma más clara, y no lo lográbamos por mucho que leyéramos sobre él o le preguntáramos a los chatbots de turno. Por eso le pedí a Felipe Bravo -que leyó su libro y hasta le pidió que lo autografiara- que nos explicara. Ahora por primera vez puedo decir que sí lo entiendo (gracias Felipe, y me alegro que seas profesor porque quedó clarísimo). Qué envidia la elegancia de la solución (por lo simple y precisa) que Imbens planteó al problema de la inferencia causal.

Para entender la obra de Guido Imbens creo que lo más importante es entender la disciplina que él cultiva: la inferencia causal.

La inferencia causal aborda un problema o una limitación muy grande de la estadística.

El problema de la estadística es que casi todos los patrones que nosotros encontramos son meramente correlaciones, pero los datos por sí solos no pueden dar una explicación causal. Un ejemplo. Tengo en un Excel una tabla de dos columnas: la cantidad de ahogos en una columna, y la venta de helados en otra, todo esto durante un año, y me doy cuenta que hay una correlación súper grande. Uno podría decir: "Chuta, parece que la venta de helados hace que la gente se ahogue".

Pero había una tercera variable, y que era la causa de las dos, y que estaba confundiendo los datos: la estación del año. Si yo tuviera la estación del año, me daría cuenta que en verdad esa variable es la causa de las otras dos.

Podemos imaginar miles de ejemplos como este. Uno puede ver que hay correlaciones espurias entre el tamaño de los brazos de las personas y su habilidad lectora. Te das cuenta que en un gráfico se ve que personas que leen bien tienden a tener los brazos más largos que las que leen mal. Pero ahí notas que hay una tercera variable: la edad. Los niños leen menos que los adultos y sus brazos son más chicos. En la práctica pasan muchas situaciones así con los datos y es muy difícil saber si las correlaciones que pillamos son causales o no. Por eso existe una disciplina que trata de hacer entender la causalidad, que es la inferencia causal.

Qué es la inferencia causal y sus distintas escuelas

Según los estadísticos del siglo XX como Fisher y Neyman, la única forma estándar o creíble para hacer inferencia causal era mediante el diseño de experimentos aleatorizados. Estos experimentos funcionan de la siguiente forma: tengo dos grupos, generalmente uno se llama grupo tratamiento y el otro control, y a los dos les aplico intervenciones distintas. Esto se usaba mucho en la agricultura: tienes ciertas plantaciones, a una le echas un fertilizante, a otras no, y mides después de cierto tiempo si hay diferencias significativas entre el grupo de tratamiento y el grupo control.

En salud es un estándar. Hoy día, si tú quieres probar una vacuna, tienes que hacer un diseño de experimento aleatorizado: a la mitad de los pacientes los trato con una vacuna, a la otra mitad de los pacientes con un placebo. No les digo a los pacientes con qué los estoy tratando y mido después si las diferencias (nivel de anticuerpos o cantidad de enfermedades o síntomas que presentan) son estadísticamente significativas. Y como los grupos los asigné al azar, tengo garantías que todas las otras variables que podrían causar las diferencias (como edad o peso) se cancelan, porque los dos grupos son lo suficientemente grandes, y al asignarlos aleatoriamente se vuelven homogéneos. Así, disminuyo mucho el riesgo de que alguna variable –como que la gente con obesidad es más propensa a tal enfermedad– quede mayoritariamente seleccionada a un grupo.

Y entonces, ¿cuál es el problema? Que en muchos escenarios de la vida real queremos hacer inferencia causal, pero no podemos hacer un experimento, ya sea por temas éticos o porque no es posible.

Por muchos años, Fisher, estadístico, decía que él se negaba a creer que fumar causara cáncer pulmonar. Creía que había un gen que te hacía fumar y ese gen te hacía más propenso al cáncer pulmonar, pero no se podía hacer un experimento. Tú no podías meter a un millón de personas por veinte años y pedirles a unos que no fumen y otros que sí y medirlos. Lo único que puedes hacer es medir datos observacionales. Y en los datos observacionales, a diferencia de los experimentales, las personas se asignan voluntariamente a los grupos, no por azar: unos deciden fumar, otros deciden no fumar.

Entonces, toda la gracia de la inferencia causal es cómo realmente se puede asignar aleatoriamente a la gente a los grupos de tratamiento y control para hacer inferencia, sin usar datos experimentales (que son los ideales). O sea, que las correlaciones que se encuentren puedan explicarse realmente como una diferencia en la variable que se está tratando: fumar o no fumar, ponerse la vacuna o no ponerse la vacuna. Y cómo hacerlo con datos observacionales que vienen dados. Todo esto tiene mucho sentido para los economistas, que no siempre pueden hacer experimentos. Otro ejemplo: quiero probar una política pública de si subir el salario mínimo va a afectar el desempleo en Chile. Si tomo cualquier país que haya hecho una política pública similar, no es directamente comparable porque puede que tengan mil otras condiciones distintas de productividad, educación, entre otras variables. Entonces, es súper complejo hacer esa estimación.

Tampoco puedo hacer un experimento. No puedo agarrar a la mitad de Chile y a unos subirle el sueldo y a otros no subirle el sueldo y ver qué pasa. No es factible. Entonces, con técnicas matemáticas que me formalicen cómo yo controlo las posibles variables de confusión, hago que las correlaciones que encuentro (que se ajustan con muchas fórmulas) corrijan ese posible ruido de estas variables de confusión, y me permitan determinar el efecto concreto de las intervenciones anulando el potencial ruido.

En la inferencia causal hay dos grandes escuelas. Está la escuela de Imbens-Rubin, que sigue una lógica que se llama potential outcomes, que viene de los economistas. Judea Pearl, premio Turing de computación, propone otra forma de hacerlo, que se llama modelos estructurales, y que se basa principalmente en grafos dirigidos (círculos representan variables y las flechas las causas directas).

Acá no son círculos, son cuadrados, pero se entiende.

Y podríamos desarrollar más la idea de que las dos miradas han generado debate sobre la forma correcta de hacer inferencia causal. Pero algo interesante que tiene Imbens es que acoge ambas miradas y tiene un artículo muy bonito donde ve toda la similitud.

Otro ejemplo que me gusta en inferencia causal y que sirve para entender el aporte de Guido Imbens: imagínate eres un alien de otra dimensión que no sabe de la gravedad. Llegas a la Tierra y ves que hay viento y se mueven los árboles y no tienes idea si el viento mueve los árboles o los árboles se mueven y cuando se mueven, generan viento. Hoy nosotros sabemos porque tenemos un modelo causal del mundo, que es la física, que hay viento y el viento genera fuerza y eso mueve los árboles, es hasta trivial. Pero si solo miráramos los datos, sin esos conocimientos previos (registros del viento y registro del movimiento de los árboles, solo esas dos columnas), si no tienes una estructura causal, no tienes idea cómo determinar qué causa qué o cuánto afecta uno al otro. La inferencia causal es la ciencia que trata de ese porqué de las cosas. Y Guido Imbens es la persona más importante de la inferencia causal para la economía.

El aporte central de Imbens, las variables instrumentales

A diferencia de Rubin, que inventa una escuela de resultados potenciales o Pearl, que inventa la escuela de computación basada en grafos causales, Imbens básicamente aplica estas técnicas concretamente con datos económicos reales, imperfectos, sin experimentos. Propone, por ejemplo, usar métodos llamados variables instrumentales y las limitaciones de lo que uno puede estimar.

¿Cuál es la idea de la variable instrumental? Con los datos observacionales que mencionamos arriba (que no son experimentos) las personas, los países… lo que estés midiendo, no se asignan aleatoriamente a los grupos.

Por ejemplo, si como país quiero medir el efecto de la educación en el salario, no puedo hacer un experimento asignando años de estudio al azar. Para poder medir el efecto se usa un concepto que se llama variable instrumental. En este caso específico podría ser la fecha de nacimiento: si la ley permite dejar el colegio a los 16, quien nació en enero llega a esa edad antes dentro del año escolar y puede irse antes que alguien nacido en diciembre. Como la fecha de nacimiento es aleatoria (nadie elige cuándo nacer) y dicta cuándo puedes dejar el colegio legalmente, funciona como un experimento natural que afecta tus años de estudio, pero no tu talento innato ni tu futuro salario. De esa forma la usas como instrumento para aislar el efecto causal de la educación en los ingresos.

Esa es la idea de Guido Imbens: aprovechar algunas variaciones externas para que funcionen como experimentos naturales. De alguna forma, fenómenos externos realizan asignaciones semi aleatorias para asignar individuos a ciertos grupos, como en el caso de la fecha de nacimiento. Y eso se puede usar como variable instrumental para simular el experimento que no ocurrió pero con condiciones parecidas y creíbles. Ese es su gran aporte a la economía: tomar esta idea de variables instrumentales para hacer experimentos naturales y hacer inferencia causal.

Otro último ejemplo, para explicar de forma más intuitiva la variable instrumental: imagínate que quieres entender el efecto causal en la vida de la gente de hacerse millonaria de un día para otro. Tú no puedes hacer un experimento en que agarras 100 personas, a una la haces millonaria y a otra no la haces millonaria, no puedes comparar a gente millonaria con gente no millonaria, porque observacionalmente la gente millonaria tuvo más oportunidades, entonces no son directamente comparables.

Pero tú tienes una variable instrumental, que es ganarse el loto. Puedes agarrar 1.000 personas que se ganaron el loto, 1.000 personas que no se ganaron el loto. Como todo es aleatorio, los grupos son homogéneos. Puede haber gente que antes era pobre, que no era pobre, que era de provincia, no de provincia, con estudios, sin estudios, en los dos grupos. Y puedes efectivamente cuantificar si hacerte millonario te hace más feliz o influye en tu salud. Puedes hacer un millón de preguntas si puedes estudiar 1.000 personas que se ganaron la lotería y 1.000 personas que no, y tienes todas las semanas a gente ganándose la lotería, entonces no es difícil. Este es un ejemplo que Guido Imbens da harto, y es muy claro para explicar el tema de variable instrumental.

En fin, entender qué causa qué no es solo un capricho teórico de matemáticos o economistas; es la base para tomar mejores decisiones en el mundo real. Desde diseñar una política pública que realmente ayude a las personas, hasta entender qué variables mueven verdaderamente la aguja en nuestras finanzas o en un negocio. El gran mérito de Guido Imbens, y lo que le valió el Premio Nobel, fue darnos los anteojos correctos para encontrar esos "experimentos naturales" escondidos en el caos de los datos del día a día.