Inferencia estadística: pruebas de hipótesis

A grandes rasgos, en la inferencia estadística buscamos hacer afirmaciones acerca de una colección de datos de la cual sólo tenemos información parcial.

Nos concentraremos en dos de las situaciones más comunes:

  1. Inferencia a poblaciones: el proceso generador de datos “selecciona” a algunos elementos de una población, y queremos decir algo acerca de la población completa.

Por ejemplo, consideremos esta población de 15 personas:

id edad estatura peso
1 62 1.58 60
2 27 1.72 72
3 33 1.64 56
4 25 1.50 60
5 44 NA NA
6 32 NA NA
7 37 NA NA
8 41 NA NA
9 55 NA NA
10 48 NA NA
11 21 NA NA
12 53 NA NA
13 52 NA NA
14 29 NA NA
15 30 NA NA

Para una muestra de ellos tenemos información acerca de su estatura y peso. ¿Qué podríamos decir acerca de la estatura y el peso de la población general?

  1. Inferencia causal: el proceso generador “asigna” tratamientos a una población o parte de ella, y quisiéramos saber cómo se comportarían las unidades tratadas si no recibieran tratamiento, y también cómo se comportarían unidades no tratadas si recibieran el tratamiento.

En este caso, la situación se ve como sigue. Imaginemos que tenemos 15 personas con dolor de cabeza, y obtenemos los siguientes datos:

id edad dolor_con_aspirina dolor_sin_aspirina tomo_aspirina dolor
1 34 NA 3 0 3
2 23 6 NA 1 6
3 59 6 NA 1 6
4 35 6 NA 1 6
5 60 NA 3 0 3
6 25 6 NA 1 6
7 19 6 NA 1 6
8 48 NA 3 0 3
9 28 6 NA 1 6
10 31 6 NA 1 6
11 26 NA 3 0 3
12 21 NA 3 0 3
13 61 NA 3 0 3
14 53 6 NA 1 6
15 33 NA 3 0 3

Nuestra pregunta en este caso es del tipo: ¿ayuda la aspirina a reducir el dolor de cabeza en esta población? ¿qué tanto ayuda? Igualmente, tenemos información incompleta, en el sentido de que sólo observamos un resultado potencial de cada persona, dependiendo de si tomó aspirina o no. Si supiéramos los dos resultados potenciales de cada persona entonces podríamos contestar la pregunta sin dificultad.

Datos incompletos e incertidumbre

Casi por regla general, el hecho de que tengamos datos incompletos implica que una respuesta apropiada a la pregunta incorporará cierto grado de incertidumbre.

Entender si es posible producir respuestas precisas a nuestras preguntas, y si es posible cuantificar correctamente la incertidumbre en la respuesta es una tarea central en la estadística.

Proceso de selección o asignación

Las preguntas que planteamos arriba son difíciles de contestar cuando no conocemos bien el proceso de selección de individuos en la muestra o no conocemos el proceso de asignación de la aspirina.

Por ejemplo, llegaríamos a conclusiones muy distintas si nos dijeran que:

  1. Escogimos las 5 personas que usan ropa talla chica.
  2. Escogimos las 5 personas que llegaron primero en una carrera de 100 metros.
  3. Escogimos las personas cuyo día de nacimiento era más bajo.

O en el ejemplo de la aspirina,

  1. Sólo dimos aspirinas a las personas que reportaron un nivel de dolor de cabeza muy alto.
  2. Solo dimos aspirina a las personas que llegaron primero en una carrera de 100 metros.
  3. Dimos una aspirina exclusivamente a las personas cuyo día de nacimiento es par.
Tip

Discute qué conclusiones podrías llegar en cada uno de estos escenarios. Puedes usar diagramas como los de la sección anterior para explicar tus respuestas.

Los casos 1 y 2 en ambas poblaciones son en general difíciles de resolver adecuadamente, y explicaremos con más ejemplos. Adicionalmente, es también más difícil cuantificar el nivel de incertidumbre de nuestras respuestas, pues dependen de muchos detalles del proceso de selección o asignación.

Proceso generador de datos y selección/asignación

Cuando el proceso de selección de observaciones o asignación tiene relaciones complicadas con las cantidades de interés, puede ser muy difícil dar respuesta a preguntas inferenciales de manera adecuada, y es importante entender el proceso que genera los datos, muchas veces a un nivel muy detallado.