Código
library(tidyverse)
library(kableExtra)
ggplot2::theme_set(ggplot2::theme_light())library(tidyverse)
library(kableExtra)
ggplot2::theme_set(ggplot2::theme_light())Nótese que en todas estas preguntas hemos tenido que recurrir a conocimientos generales y de dominio para interpretar y hacer hipótesis acerca de lo que vemos en la gráfica. Una visión descontextualizada no tiene mucha utilidad. Las explicaciones son típicamente complejas e intervienen distintos aspectos del comportamiento de actores, sistemas, y métodos de recolección de datos involucrados.
Al conjunto de esos aspectos que determinan los datos que finalmente observamos le llamamos el proceso generador de datos. Para datos que observamos “naturalmente” este proceso generalmente es complicado.
En la Ciencia de Datos buscamos entender las partes importantes del proceso generador
Mucha parte de este trabajo no es estadístico, sino que es un esfuerzo por entender el dominio (como sugiere el título de artículo de David A. Friedman: Statistical Models and Shoe Leather).
Consideramos ahora los siguientes datos de admisión a distintos departamentos de Berkeley en 1975:
data("UCBAdmissions")
adm_original <- UCBAdmissions |> as_tibble() |>
pivot_wider(names_from = Admit, values_from = n)
adm_original |> knitr::kable() |>
kable_paper(full_width = FALSE)| Gender | Dept | Admitted | Rejected |
|---|---|---|---|
| Male | A | 512 | 313 |
| Female | A | 89 | 19 |
| Male | B | 353 | 207 |
| Female | B | 17 | 8 |
| Male | C | 120 | 205 |
| Female | C | 202 | 391 |
| Male | D | 138 | 279 |
| Female | D | 131 | 244 |
| Male | E | 53 | 138 |
| Female | E | 94 | 299 |
| Male | F | 22 | 351 |
| Female | F | 24 | 317 |
Con algo de manipulación podemos ver tasas de admisión para Male y Female, y los totales de cada grupo que solicitaron en cada Departamento.
adm_tbl <- adm_original |>
mutate(prop_adm = round(Admitted / (Admitted + Rejected), 2), total = Admitted + Rejected) |>
select(Gender, Dept, prop_adm, total) |>
pivot_wider(names_from = Gender, values_from = prop_adm:total)
adm_tbl |> knitr::kable() |>
kable_paper(full_width = FALSE)| Dept | prop_adm_Male | prop_adm_Female | total_Male | total_Female |
|---|---|---|---|---|
| A | 0.62 | 0.82 | 825 | 108 |
| B | 0.63 | 0.68 | 560 | 25 |
| C | 0.37 | 0.34 | 325 | 593 |
| D | 0.33 | 0.35 | 417 | 375 |
| E | 0.28 | 0.24 | 191 | 393 |
| F | 0.06 | 0.07 | 373 | 341 |
Y complementamos con las tasas de aceptación a total por género, y tasas de aceptación por departamento:
adm_original |> group_by(Gender) |>
summarise(Admitted = sum(Admitted), Rejected = sum(Rejected)) |>
mutate(prop_adm = round(Admitted / (Admitted + Rejected),2)) |>
kable() |>
kable_paper(full_width = FALSE)| Gender | Admitted | Rejected | prop_adm |
|---|---|---|---|
| Female | 557 | 1278 | 0.30 |
| Male | 1198 | 1493 | 0.45 |
adm_original |> group_by(Dept) |>
summarise(Admitted = sum(Admitted), Rejected = sum(Rejected)) |>
mutate(prop_adm = round(Admitted / (Admitted + Rejected),2)) |>
kable() |>
kable_paper(full_width = FALSE)| Dept | Admitted | Rejected | prop_adm |
|---|---|---|---|
| A | 601 | 332 | 0.64 |
| B | 370 | 215 | 0.63 |
| C | 322 | 596 | 0.35 |
| D | 269 | 523 | 0.34 |
| E | 147 | 437 | 0.25 |
| F | 46 | 668 | 0.06 |
Una primera contribución importante de la estadística al análisis de datos contesta la siguiente pregunta:
Sin embargo,
El diseño estadístico (de experimentos, o de muestreo por ejemplo) nos guía a cómo modificar el proceso generador para simplificar el análisis, y en ese caso nos provee de herramientas para contestar preguntas de interés y cuantificar la incertidumbre ne las respuestas. Veremos más adelante por qué, pero por lo pronto señalamos alguna característica central: