Entre muchas cosas, las encuestas del 2012 pusieron dos temas importantes en la mesa. Primero, antes de las elecciones, muchos se preguntaban cosas como ¿qué tan confiables son las encuestas? ¿qué significan los porcentajes y los números que nos dan? ¿por qué yo no conozco a nadie a quien hayan entrevistado? Ahora en pleno momento postelectoral, con conocimiento del conteo rápido y con PREP casi terminado, surgen muchas otras preguntas: ¿por qué el margen de ganancia entre AMLO y EPN es mucho menor del que se había proyectado? ¿en qué fallaron las casas encuestadoras? ¿estaban manipuladas? ¿por qué salió Ciro Gómez Leyva a cuasi-reconocer un chanchullo?
Empecemos por lo primero... ¿Cómo salen las encuestas? Las encuestas nos permiten conocer las opiniones de la población conociendo sólo una parte de ésta. Esta inferencia se puede (con un margen de error) hacer gracias al maravilloso Teorema del Límite Central. Si quieren un bello applet de cómo funciona el Teorema, den click aquí. En este post no explicaré el Teorema, pero señalaré dos cosas importantísimas que éste dice. Primero, la muestra que estemos observando debe ser aleatoria. No valen las muestras "pues en mi vecindario," "pues en Twitter," "pues los taxistas," y otras chaireces similares. Segunda, no importa el tamaño de la población de la que queramos hacer inferencia: el margen de error se calcula con el tamaño de muestra. Miren la siguiente gráfica (obtenida de este link):
Básicamente muestra que el margen de error disminuye marginalmente conforme la muestra crece. No hay nada aquí que incluya el tamaño de la población a la que queremos inferir.
Una vez que una casa encuestadora ya obtiene su muestra aleatoria, entonces va y toca en las casas, o llama a los teléfonos, y hace sus preguntas. Es importante aquí hacer notar que el modo de preguntar importa. Por ejemplo, no es lo mismo preguntarle a la gente "Considerando la alta aceptación del gobierno de la ciudad de México, ¿por quién votará en las próximas elecciones? que preguntar únicamente "En estas elecciones, ¿por quién va a votar para jefe de gobierno del DF?" Claramente la primer pregunta induce a una respuesta. Por eso, cuando vean una encuesta, pregúntense ¿cómo fue formulada exactamente la pregunta?
Independientemente de la pregunta, hay gente que no contesta y eso una fuente de error. Hay gente que miente, otra fuente de error. Hay gente que no miente pero cambia de parecer ¡bam! un error más ¿Cuándo nos debemos de preocupar por estos errores? Los errores (siempre) preocupan cuando son sistemáticos, es decir, cuando la probabilidad de que haya uno de estos errores está relacionada a lo que queremos observar (en este caso, que la persona vote por determinado partido). Por ejemplo, supongamos que hay un escándalo de uno de los candidatos. Hay razones para suponer que este escándalo va a afectar a los votantes que originalmente iban a votar por éste candidato: error no sistemático.
Una vez que se levanta la encuesta y se hace la base de datos, se pueden reportar los resultados brutos. Usualmente, sin embargo, los resultados brutos son corregidos. Esto se hace con un ponderador, es decir, se le da un peso a cada observación. Dicho peso normalmente está determinado por datos socioeconómicos. La lógica de este ponderador es la siguiente; piensen ustedes que es mucho más probable entrevistar a personas que estén en sus casas que a personas que trabajan. Por tanto, puede ser que al final de un levantamiento hayamos entrevistado a un porcentaje mayor de amas de casa que el porcentaje poblacional de las amas de casa. El ponderador socioeconómico corrige esto. Si una casa encuestadora no lo hace bien, pues es una fuente más de error.
Éstos resultados, así como los brutos, sirven para medir las aguas, pero es difícil que se aplique a la elección porque confunde la no respuesta con el abstencionismo ¿Qué hacer? Las casas encuestadoras, entonces, aplican la bella y bonita "fórmula del votante probable" que básicamente es añadir otro ponderador que determina la probabilidad de que cada persona vaya a votar. Éste ponderador es usualmente secreto porque es la carta fuerte de una encuestadora. Una encuestadora que tenga un muy buen ponderador de votante probable va a poder estimar con mayor precisión el resultado de la elección, porque a ésta sólo van algunas personas que no están distribuidas aleatoriamente. Si la casa encuestadora lo hace mal, sus estimaciones serán raritas y nadie los contratará ¿Cómo saber si está bien hecho esto? Revisa la historia de una casa encuestadora tomando en cuenta sus encuestas ponderadas. Te dará una idea de qué tan buena fórmula tienen.
¿Con qué nos quedamos? Las encuestas son confiables como una fuente de información. Las encuestas no son la elección, y están sujetas a muchas fuentes de error. Sin embargo, este error puede ser o corregido o aumentado dependiendo del profesionalismo de la casa encuestadora. Lo que sí es básico es que las casas encuestadoras sean tan transparentes como sea posible, dando a conocer la metodología del levantamiento (fraseo de la pregunta y selección de la muestra) y de la ponderación. Otro factor importantísimo es que la casa encuestadora nos diga quién pagó la encuesta para saber si hay intereses que podrían estar afectando la imparcialidad del cuestionario o del ponderador. Conociendo esto, podremos saber con mayor precisión qué tan probable es que una encuesta nos diga algo significativo, o de dónde podría venir su error.
Gracias por la explicación. Lo que no "explica" es un error tan grande en las encuestas electorales mexicanas. Ayer Roy Campos lo intentó en en programa de radio y más sonó a auto-justificación que a autocrítica; casi casi que a los mexicanos no se nos aplica el Teorema del Límite Central y casi ni el de Pitágoras.
ResponderEliminarQue bueno que difundes esta información, sin embargo, considero que hace falta aclarar que las encuestas muestran una foto, es decir, la intención de voto en un momento de tiempo determinado. Eso es importantísimo porque implica que, en general, no se trata de ejercicios predicitivos.
ResponderEliminar