3  Procesos generadores de datos

Código
library(tidyverse)
library(kableExtra)
ggplot2::theme_set(ggplot2::theme_light())

Nótese que en todas estas preguntas hemos tenido que recurrir a conocimientos generales y de dominio para interpretar y hacer hipótesis acerca de lo que vemos en la gráfica. Una visión descontextualizada no tiene mucha utilidad. Las explicaciones son típicamente complejas e intervienen distintos aspectos del comportamiento de actores, sistemas, y métodos de recolección de datos involucrados.

El proceso generador de datos

Al conjunto de esos aspectos que determinan los datos que finalmente observamos le llamamos el proceso generador de datos. Para datos que observamos “naturalmente” este proceso generalmente es complicado.

En la Ciencia de Datos buscamos entender las partes importantes del proceso generador

Mucha parte de este trabajo no es estadístico, sino que es un esfuerzo por entender el dominio (como sugiere el título de artículo de David A. Friedman: Statistical Models and Shoe Leather).

Ejercicio: admisiones de Berkeley

Consideramos ahora los siguientes datos de admisión a distintos departamentos de Berkeley en 1975:

Código
data("UCBAdmissions")
adm_original <- UCBAdmissions |> as_tibble() |> 
   pivot_wider(names_from = Admit, values_from = n) 
adm_original |> knitr::kable() |> 
   kable_paper(full_width = FALSE)
Gender Dept Admitted Rejected
Male A 512 313
Female A 89 19
Male B 353 207
Female B 17 8
Male C 120 205
Female C 202 391
Male D 138 279
Female D 131 244
Male E 53 138
Female E 94 299
Male F 22 351
Female F 24 317

Con algo de manipulación podemos ver tasas de admisión para Male y Female, y los totales de cada grupo que solicitaron en cada Departamento.

Código
adm_tbl <- adm_original |> 
   mutate(prop_adm = round(Admitted / (Admitted + Rejected), 2), total = Admitted + Rejected) |> 
   select(Gender, Dept, prop_adm, total) |> 
   pivot_wider(names_from = Gender, values_from = prop_adm:total)
adm_tbl |> knitr::kable() |> 
   kable_paper(full_width = FALSE)
Dept prop_adm_Male prop_adm_Female total_Male total_Female
A 0.62 0.82 825 108
B 0.63 0.68 560 25
C 0.37 0.34 325 593
D 0.33 0.35 417 375
E 0.28 0.24 191 393
F 0.06 0.07 373 341

Y complementamos con las tasas de aceptación a total por género, y tasas de aceptación por departamento:

Código
adm_original |> group_by(Gender) |> 
   summarise(Admitted = sum(Admitted), Rejected = sum(Rejected)) |> 
   mutate(prop_adm = round(Admitted / (Admitted + Rejected),2)) |> 
   kable() |> 
   kable_paper(full_width = FALSE)
Gender Admitted Rejected prop_adm
Female 557 1278 0.30
Male 1198 1493 0.45
Código
adm_original |> group_by(Dept) |> 
   summarise(Admitted = sum(Admitted), Rejected = sum(Rejected)) |> 
   mutate(prop_adm = round(Admitted / (Admitted + Rejected),2)) |> 
   kable() |> 
   kable_paper(full_width = FALSE)
Dept Admitted Rejected prop_adm
A 601 332 0.64
B 370 215 0.63
C 322 596 0.35
D 269 523 0.34
E 147 437 0.25
F 46 668 0.06
  • Dibuja el diagrama causal
  • ¿Qué observas acerca de las tasas de admisión en cada departamento, diferenciadas por género? ¿Qué tiene qué ver con el número de personas que solicitan en cada departamento?
  • Esta es una tabla descriptiva. Sin embargo, tiene que ser entendida en el contexto de los datos y su generación. ¿Qué hipótesis importantes sugieren estos datos? ¿Por qué hay tanta diferencia de género de solicitudes en algunos departamentos? ¿Por qué es sorprendente o no las variaciones en tasas de aceptación de estudiantes de cada género?

4 Diseño estadístico e inferencia

Una primera contribución importante de la estadística al análisis de datos contesta la siguiente pregunta:

  • El análisis correcto depende del proceso generador de datos
  • Incluso cuando tenemos conocimiento detallado de dominio, es posible que algunos de nuestros supuestos sean cuestionables.

Sin embargo,

  • Si pudiéramos alterar el proceso generador de datos de alguna manera razonable, ¿sería posible hacer un análisis que dependa de menos supuestos?
  • En lugar de usar los datos que tenemos a la mano, ¿podemos pensar en una manera de producir los datos que nos de más certeza acerca de las conclusiones que extraemos de ellos, y que nos permita extraer la mayor información posible?

El diseño estadístico (de experimentos, o de muestreo por ejemplo) nos guía a cómo modificar el proceso generador para simplificar el análisis, y en ese caso nos provee de herramientas para contestar preguntas de interés y cuantificar la incertidumbre ne las respuestas. Veremos más adelante por qué, pero por lo pronto señalamos alguna característica central:

  • En los ejemplos que vimos arriba, ocurren dificultades porque la aplicación del tratamiento o la selección de individuos depende de una variable relacionada también con la variable respuesta que nos interesa medir. Veremos que podemos usar aleatorización para cortar estas dependencias.
  • El diseño de muestras y experimentos también nos provee herramientas para decidir cuántos datos necesitamos y de qué tipo para dar respuestas con suficiente precisión para nuestros propósitos.