Guido Imbens, Premio Nobel de Economía en Chile: ¿que es la inferencia causal?

Nota de la editora: Fintual trajo a Chile al premio nobel de economía Guido Imbens, la semana pasada y dio una charla en el el seminario “Presente y Futuro de la Inteligencia Artificial y la Ciencia de Datos en América Latina”. En Fintualist queríamos entender el aporte de Imbens de forma más clara, y no lo lográbamos leyendo sobre él ni preguntándole a todos los chatbots de turno. Por eso le pedí que nos explicara a Felipe Bravo, quien leyó su libro y hasta le pidió que lo autografiara. Ahora por primera vez puedo decir que sí lo entiendo (gracias Felipe, y me alegro que seas profesor porque quedó clarísimo). Qué envidia la elegancia (por lo simple y precisa) de la solución que Imbens planteó al problema de la inferencia causal.

Para entender la obra Guido Imbens creo que lo más importante es entender la disciplina que él cultiva: la inferencia causal.

La inferencia causal aborda un problema o una limitación muy grande de la estadística.

El problema de la estadística es que casi todos los patrones que nosotros encontramos son meramente correlaciones, pero los datos por sí solos no pueden dar una explicación causal. Un ejemplo. Tengo en un Excel una tabla de dos columnas: la cantidad de ahogos en una columna, y la venta de helados en otra, todo esto durante un año, y me doy cuenta que hay una correlación súper grande. Uno podría decir: "Chuta, parece que la venta de helados hace que la gente se ahogue".

Pero había una tercera variable, y que era la causa de las dos, y que estaba confundiendo los datos: la estación del año. Si yo tuviera la estación del año, me daría cuenta que en verdad esa variable es la causa de las otras dos.

Podemos imaginar miles de ejemplos como este.. Uno puede ver que hay correlaciones espurias entre el tamaño de los brazos de las personas y su habilidad lectora. Te das cuenta que en un gráfico se ve que personas que leen bien tienden a tener los brazos más largos que las que leen mal. Pero ahí notas que hay una tercera variable:la edad. Los niños leen menos que los adultos y sus brazos son más chicos. En la práctica pasan muchas situaciones así con los datos y es muy difícil saber si las correlaciones que pillamos son causales o no. Por eso existe una disciplina que trata de hacer entender la causalidad, que es la inferencia causal.

Qué es la inferencia causal y sus distintas escuelas

Según los estadísticos del siglo XX como Fisher y Neyman, la única forma estándar o creíble para hacer inferencia causal era mediante el diseño de experimentos aleatorizados. Estos experimentos funcionan de la siguiente forma: tengo dos grupos, generalmente uno se llama grupo tratamiento y el otro control, y a los dos les aplico intervenciones distintas. Esto se usaba mucho en la agricultura: tienes ciertas plantaciones, a una le echas un fertilizador, a otras otro, y mides después de cierto tiempo si hay diferencias significativas entre el grupo de tratamiento y el grupo control.

En salud es un estándar. Hoy día, si tú quieres probar una vacuna, tienes que hacer un diseño de experimento aleatorizado: a la mitad de los pacientes los trato con una vacuna, a la otra mitad de los pacientes con un placebo. No les digo a los pacientes con qué los estoy tratando y mido después si las diferencias (baja de anticuerpos o cantidad de enfermedades o síntomas que preservan) son estadísticamente significativas. Y como los grupos los asigné al azar, tengo garantías que todas las otras variables que podrían causar las diferencias (como edad, peso) se cancelan, porque los dos grupos son lo suficientemente grandes, y al asignarlos aleatoriamente se vuelven homogéneos. Así, bajo mucho el riesgo de que alguna variable –como que la gente con obesidad es más propensa a tal enfermedad– quede supremamente seleccionada a un grupo.

Y entonces, ¿cuál es el problema? Que en muchos escenarios de la vida real queremos hacer inferencia causal, pero no podemos hacer un experimento, ya sea por temas éticos o porque no es posible.

Por muchos años, Fisher, estadístico, decía que él se negaba a creer que fumar causara cáncer pulmonar. Primero, porque no se podía hacer un experimento. Tú no podías meter a un millón de personas por veinte años y pedirles a unos que no fumen y otros que sí y medirlos. Lo único que puedes hacer es medir datos observacionales. Y en los datos observacionales, a diferencia de los experimentales, las personas se asignan voluntariamente a los grupos, no por azar: unos deciden fumar, otros deciden no fumar.

Entonces, toda la gracia de la inferencia causal es cómo se puede, sin datos experimentales, que son los ideales, realmente asignar aleatoriamente a la gente los grupos de tratamiento y control para hacer inferencia causal. O sea, que las correlaciones que se encuentren realmente se pueda explicar que son una diferencia entre la variable que se está tratando: fumar o no fumar, tomar la vacuna o no tomar la vacuna. Y cómo hacerlo con datos observacionales que vienen dados. Todo esto tiene mucho sentido para los economistas. Otro ejemplo: quiero probar una política pública de si subir el salario mínimo va a afectar el desempleo en Chile. Si tomo cualquier país que haya hecho una política pública similar, no es directamente comparable porque puede que tengan mil otras condiciones distintas de productividad, educación. Entonces, es súper complejo hacer esa estimación.

Tampoco puedo hacer un experimento. No puedo agarrar a la mitad de Chile y a unos subirle el sueldo y a otros no subirle el sueldo y ver qué pasa. No es factible. Entonces, con técnicas matemáticas que me formalicen cómo yo controlo las posibles variables de confusión, hago que las correlaciones que encuentro (que se ajustan con muchas fórmulas) corrijan ese posible ruido de estas variables de confusión, y me permitan determinar si las relaciones que yo tengo son causales o no causales.

En la inferencia causal hay dos grandes escuelas. Está la escuela de Imbens-Rubin, que sigue una lógica que se llama potential outcomes, que viene de los economistas. Judea Pearl, premio Turing de computación, propone otra forma de hacerlo, que se llama modelos estructurales, y que se hace con unas notaciones y con unos grafos. Y siempre hay un debate. Pero algo interesante que tiene Imbens es que acoge ambas miradas y tiene un artículo muy bonito donde ve toda la similitud.

Otro ejemplo que me gusta en inferencia causal y que sirve para entender el aporte de Guido Imbens: imagínate eres un alien de otra dimensión que no sabe de la gravedad. Llegas la Tierra y ves que hay viento y se mueven los árboles y no tienes idea si el viento mueve los árboles o los árboles se mueven y cuando se mueven, generan viento. Hoy nosotros sabemos porque tenemos un modelo causal del mundo, que es la física, que hay viento y el viento genera fuerza y eso mueve los árboles, es hasta trivial. Pero si solo miráramos los datos, sin esos conocimientos previos (registros del viento y registro del movimiento de los árboles, solo esas dos columnas), si no tienes una estructura causal, no tienes idea cómo determinar qué causa qué o cuánto afecta uno al otro. La inferencia causal es la ciencia que trata de ese porqué de las cosas. Y Guido Imbens es la persona más importante de la inferencia causal para la economía.

El aporte central de Imbens, las variables instrumentales

Imbens, a diferencia de Rubin, que inventa una escuela de diferencia causal––la potential outcome–– o Pearl, que inventa la escuela más de computación, básicamente aplica estas técnicas concretamente con datos económicos económicos reales, imperfectos, sin experimentos. Propone, por ejemplo, usar cosas que se llaman las variables instrumentales y las limitaciones de lo que uno puede estimar.

¿Cuál es la idea de la variable instrumental? Con los datos observacionales que mencionamos arriba (que no son experimentos) las personas, los países… lo que estés midiendo, no se asignan voluntariamente a los grupos.

Por ejemplo, si como país quiero medir el efecto de la educación en el salario, no puedo hacer un experimento asignando años de estudio al azar. Para poder medir el efecto se usa un concepto que se llama variable instrumental. En este caso específico podría ser la fecha de nacimiento: si la ley permite dejar el colegio a los 16, quien nació en enero llega a esa edad antes dentro del año escolar y puede irse antes que alguien nacido en diciembre.

Esta variación es casi aleatoria y afecta a los años de educación, pero no debería afectar directamente al salario. De esa forma la usas como instrumento para aislar el efecto causal de la educación en los ingresos.

Esa es la idea de Guido Imbens: aprovechar algunas variaciones externas para que funcionen como experimentos naturales. De alguna forma, la naturaleza hace cosas semi aleatorias para asignar individuos a ciertos grupos, como en el caso de la fecha de nacimiento. Y eso se puede usar como variable instrumental para simular el experimento que no ocurrió pero con condiciones parecidas y creíbles. Ese es su gran aporte a la economía: tomar esta idea de variables instrumentales para hacer experimentos naturales y hacer inferencia causal.

Otro último ejemplo, para explicar de forma más intuitiva la variable instrumental: imagínate que quieres entender el efecto causal en la vida de la gente de hacerse millonaria de un día para otro. Tú no puedes hacer un experimento en que agarras 100 personas, a una la hacés millonaria y a otra no la haces millonaria, no puedes comparar a gente millonaria con gente no millonaria, porque observacionalmente la gente millonaria tuvo más oportunidades, entonces no son directamente comparables.

Pero tú tienes una variable instrumental, que es ganarse el loto. Puedes agarrar 1.000 personas que se ganaron el loto, 1.000 personas que no se ganaron el loto. Como todo es aleatorio, los grupos son homogéneos. Puede haber gente que antes era pobre, que no era pobre, que era de provincia, no de provincia, con estudios, sin estudios, en los dos grupos. Y puedes efectivamente cuantificar si hacerte millonario te hace más feliz o influye en tu salud. Puedes hacer un millón de preguntas si puedes estudiar 1.000 personas que se ganaron la lotería y 1.000 personas que no, y tienes todas las semanas a gente ganándose la lotería, entonces no es difícil. Este es un ejemplo que Guido Imbens da harto, y es muy claro para explicar el tema de variable instrumental.

Su charla en Chile, en el Seminario Presente y Futuro de la Inteligencia Artificial y la Ciencia de Datos en América Latina” Pueden ver la charla completa acá, que incluye una transcripción y doblaje al español y acá está la con idioma original.