youtube pinterest twitter facebook

#ELECCIONES2018: El desempeño de las encuestas electorales en México

Alejandro Moreno | 01.07.2018
#ELECCIONES2018: El desempeño de las encuestas electorales en México
Este es un extracto del libro El cambio electoral, de próxima publicación por el Fondo de Cultura Económica, que documenta un complejo historial de aciertos e imprecisiones.

¿Cuál ha sido el desempeño de las encuestas electorales en el país? ¿Cuál ha sido su nivel de error? Las encuestas electorales enfrentan la gran oportunidad y el gran riesgo de ser evaluadas contra los resultados de las elecciones. Es una gran oportunidad porque, a diferencia de otras encuestas que no tienen un parámetro contra qué compararse, con las encuestas electorales sí es posible demostrar el alto grado de precisión y exactitud que pueden alcanzar, lo cual construye una base de confianza en sus metodologías y prácticas. También es un gran riesgo porque la comparación con los resultados hace notar las fallas, las cuales, si son grandes y continuas, erosionan su credibilidad.

El desempeño de las encuestas en México es una historia de aciertos y fallas. Nuestro enfoque aquí se centra particularmente en el error, sin adentrarnos en su causa. Lo que nos atañe es el historial de exactitud y de precisión de las encuestas en el país. Antes de profundizar, vale la pena hacer algunas aclaraciones sobre el análisis que se desarrolla en las páginas siguientes: 

1. Encuestas públicas: Nos enfocamos a analizar el error de las encuestas que se han publicado durante los procesos electorales nacionales y estatales entre 1994 y 2017.

2. Encuestas finales: El análisis se centra en las encuestas finales que dan a conocer las organizaciones demoscópicas a través de los diversos medios de comunicación. La razón para considerar solamente las encuestas finales publicadas y no las series completas es que las últimas encuestas son las que suelen contar con un mayor nivel de exactitud, al ser las más cercanas a los comicios.1

3. Perspectiva histórica: Los registros de encuestas públicas han servido para evaluar su exactitud y su precisión en las elecciones para distintos cargos de gobierno, pero las evaluaciones a las encuestas se han limitado a la elección en turno o a un grupo reducido de elecciones, sin realizar hasta ahora una evaluación integral, histórica y exhaustiva del desempeño de los sondeos.

4. Evaluación ex post facto: Durante una campaña electoral hay encuestas que suelen descalificarse porque muestran resultados atípicos, porque se salen del promedio de encuestas, pero ninguna encuesta puede ser evaluada por su exactitud antes de las elecciones. Es necesario conocer los resultados oficiales de la votación, el cómputo final válido.

5. Estandarización de método: Las evaluaciones que se han hecho a las encuestas suelen emplear criterios y métodos distintos, lo que imposibilita hacer una evaluación integral a lo largo del tiempo bajo una misma óptica. Con la estandarización aseguramos la comparación histórica y la comparación internacional.

6. Métrica básica y clásica: En este análisis nos apegamos a las métricas básicas del error promedio y el error ventaja, no sin discutir sus características y limitaciones a la luz de los nuevos esfuerzos que se han planteado para mejorar las métricas originales o para ofrecer otras diferentes.2

 

La métrica del error: regresando a lo básico

Poco después de las fallas de las encuestas en Estados Unidos en 1948, el Consejo de Investigación para las Ciencias Sociales (SSRC) se propuso no so- lamente documentar lo mejor posible las causas de las fallas en los sondeos, para lo cual formó un comité de expertos, sino que también encargó desarrollar las métricas para evaluar el tamaño del error de las encuestas. Frederick Mosteller, estadístico y profesor en Harvard, fue el encargado principal de desarrollar esas métricas.3

La propuesta se documentó en un reporte al SSRC publicado en 1949.4 Mosteller propondría por lo menos nueve métricas para determinar el tamaño del error de las encuestas, de las cuales dos han sido las más utilizadas. De ellas, la métrica conocida como Mosteller 3 (M3) se refiere al error promedio: la suma de desviaciones —en valor absoluto— de las estimaciones para cada candidato, dividida entre el número de candidatos. Si en la elección el candidato A obtiene 44%, el candidato B 36% y el candidato C 20%, una encuesta que haya estimado 42% para A, 38% para B y 20% para C tendría un error total acumulado de 4 puntos, y un error promedio de 1.33 puntos, la división del error total de cuatro puntos entre tres candidatos. El error promedio suele utilizarse con mucha frecuencia en la evaluación de las encuestas electorales en México.5 Se trata de una medida muy útil que, sin embargo, puede resultar insuficiente para conocer un aspecto crucial de la elección: ¿qué tan abierta o cerrada se preveía? Las estimaciones del sondeo que dimos como ejemplo daban una ventaja al candidato A, pero en un escenario de empate estadístico con apenas cuatro puntos de diferencia, por lo cual la encuesta no podía anticipar con toda certeza un ganador. La lectura es que la elección venía cerrada. Sin embargo, los números del resultado electoral dan un escenario más abierto en el cual A gana por ocho puntos. Aunque el error promedio del sondeo fue bastante bueno, el error en estimar la ventaja no lo fue tanto.

La métrica de Mosteller 5 (M5) se enfoca en el error de la estimación de la ventaja, es decir, en la diferencia que estiman las encuestas entre el primer y segundo lugar y la ventaja que resultó finalmente en la elección. En el ejemplo anterior la encuesta estimaba una ventaja de 4 puntos, la cual finalmente resultó de ocho puntos en la elección. El error ventaja, M5, sería en este caso de cuatro puntos. Generalmente los críticos de las encuestas señalan las fallas con base en la ventaja, ya que ésta es más fácil de percibir sin recurrir a la estadística: estuvo cerrada o no. En las elecciones presidenciales de 2012 todas las encuestas acertaron al ganador, pero la gran mayoría falló al estimar una ventaja que a la postre fue mucho más reducida de lo que sus números pronosticaban.

Para poder calcular los tamaños de error con las métricas de M3 y M5 es necesario considerar el voto válido final de la elección, sin considerar los votos nulos o los votos por candidatos no registrados en el resultado oficial, y compararlo con el porcentaje efectivo de las estimaciones de la encuesta, sin considerar tampoco los nulos, no sabe y no contestó. Si el tamaño de las desviaciones se acerca a cero la estimación de la encuesta será más exacta, mientras que si la desviación se aleja de cero, la exactitud de la encuesta disminuirá. Las métricas de Mosteller M3 y M5 son fácilmente calculables, intepretables y exportables a diversos contextos y países. También son adecuadas para evaluar el desempeño histórico de las encuestas en varias elecciones dentro de un mismo país, e identificar las posibles fuentes de error contextual. Aún así, se han hecho varios intentos por mejorarlas o adecuarlas. Entre los más importantes está el desarrollo de un indicador de exactitud predictiva A, que emplea una conversión logarítmica de las desviaciones derivadas de las encuestas.6 Su diseño estuvo pensado para el sistema bipartidista de Estados Unidos, aunque también se ha adaptado a algunos sistemas multipartidisdtas. No obstante, esta nueva medida no ha sustituido del todo a los indicadores Mosteller; incluso quienes la propusieron siguen apelando a las métricas del estadístico de Harvard.7

En México también se han propuesto métodos alternativos para medir y entender el error de las encuestas. En el ámbito académico, Francisco Cantú, Verónica Hoyo y Marco Morales, han propuesto que en vez de tener una sola estadística para las estimaciones de distintas firmas encuestadoras al final de las campañas, el error de las encuestas debería medirse para cada partido o candidato a lo largo de las campañas.8 Su análisis de las encuestas en las elecciones presidenciales de 2006 y 2012 advierte que enfocarse solamente en las estimaciones finales llevaría a concluir que algunos posibles sesgos son atribuibles a la pura aleatoriedad, por lo que prefieren analizar todos los sondeos publicados durante los cinco meses previos a la elección. Es una propuesta interesante, pero la principal preocupación de los autores por no atribuir sesgos a la pura aleatoriedad mirando la última publicación se resuelve con un análisis mucho más exhaustivo de diversas elecciones, aún “limitándose” a las encuestas finales. El sesgo sistemático de cada empresa encuestadora puede observarse con su historial en todas las elecciones para las que ha publicado estimaciones a lo largo de los años.

En el ámbito profesional, el encuestador Ricardo de la Peña ha propuesto un “estimador alternativo” E para evaluar la exactitud de los sondeos.9 Entre sus novedades está el hecho de que E mide el error de las encuestas no con respecto al resultado de la elección, sino con respecto al promedio de las encuestas publicadas, el poll of polls. De la Peña argumenta por qué cree que ese es un mejor “parámetro”, lo cual no necesariamente es el caso. El poll of polls en varias ocasiones ha sido poco exacto y ha quedado fuera de los márgenes aceptables. De la Peña ofrece una interesante discusión metodológica y estadística, pero su conclusión cuestiona la razón de buscar métricas alternativas: “...el nuevo estimador propuesto no altera de manera radical las conclusiones a las que pudiera llegarse utilizando el estimador convencional [Mosteller] M3”. Nuevamente un punto a favor de las métricas clásicas del profesor Mosteller.

Finalmente, en el ámbito periodístico también han surgido algunas propuestas de evaluación a la exactitud de las encuestas. En un artículo publicado por la revista Nexos en marzo de 2012, Leo Zuckermann propuso un ranking de las casas encuestadoras, diseñado con el propósito de recomendar a cuáles creerles rumbo a las elecciones presidenciales y a cuáles no.10 El ranking tomaba en consideración algunos aspectos del error, como el error ventaja M5, pero también otros dos criterios que resulta difícil justificar cuando se conoce bien la naturaleza de las encuestas. El ranking Zuckermann asignaba puntos por número de encuestas publicadas, entre más encuestas mejor; daba puntos por acertar ganador, sin importar niveles de sobreestimación o subestimación; además, asignaba una ponderación arbitraria a cada uno de los criterios utilizados, dando un peso de casi dos terceras partes al hecho de acertar ganador. Ninguno de estos criterios se guiaba bajo la premisa básica de medir el error en función de la exactitud de las encuestas, salvo el error ventaja que había sido contaminado por la ponderación. El propio Zuckermann reflexiona en su artículo sobre ello: “Me queda clarísimo que se trata de una calificación donde yo he decidido darle cierto peso al trabajo de los encuestadores […]. Algunos podrán argumentar que se trata de una medida arbitraria, pero me parece un buen comienzo para evaluar a los encuestadores.”11

Ese comienzo llegó pronto a su fin. La fórmula de Zuckermann en la elección de 2012 no funcionó y dejó claro que estaba mal planteada de origen.12 El criterio de acertar ganador no era el adecuado y al darse cuenta de ello Zuckermann decidió cambiar el peso de sus ponderaciones, ofreciendo dos fórmulas adicionales en las que el peso de acertar al ganador bajaba hasta a un tercio de lo que proponía originalmente. Pero ese no era el único problema: dar mayor peso a la firma encuestadora por su número de encuestas, lo cual según él implicaba más riesgos y por lo tanto tenía que premiarse, en realidad resultaba más generoso por una sencilla razón: las restricciones presupuestales de algunos medios los llevan a decidir cuáles elecciones estimar y cuáles no, y por lo general el criterio de decisión suele ser el noticioso, lo cual implica hacer estimaciones en las elecciones más competidas, no en las más fáciles. En algunos casos hacer menos encuestas es más riesgoso que hacer más, contrario a lo que proponía la fórmula Zuckermann. La propuesta del analista estaba equivocada, pero la intención era buena: evaluar el desempeño de las encuestas y de los encuestadores. Para ello no había que inventar la fórmula, sólo aplicarla adecuadamente.

 

Exactitud y precisión: récord histórico

El análisis de esta sección se enfoca en los indicadores de error Mosteller 3 (M3) y Mosteller 5 (M5), el error promedio y el error ventaja referidos anteriormente. La base de datos para el presente análisis incluye 689 encuestas finales publicadas, realizadas por 134 fi rmas o casas encuestadoras, en 132 elecciones federales y estatales entre 1994 y 2017. De las 134 casas encuestadoras, siete han producido poco más de la mitad de todas las encuestas finales publicadas, incluidos los periódicos con unidad interna de encuestas: Reforma (15%), El Universal (10%), Demotecnia (8%), Consulta Mitofsky (7%), Gabinete de Comunicación Estratégica (5%), Parametría (4%) y GEA-ISA (3%).

En la Gráfica 1 se muestra el número total de encuestas finales publicadas en las elecciones cada año entre 1994 y 2017. Lo primero que destaca es que el número de encuestas finales ha crecido notablemente. El 15% de las encuestas finales se enfocó en estimar la intención de voto en elecciones nacionales legislativas o presidenciales, mientras que 85% son encuestas en elecciones para gobernador estatal, incluidas las de jefe de gobierno del Distrito Federal, ahora Ciudad de México. Así, aunque las elecciones presidenciales y legislativas son las que más atención atraen, las encuestas en elecciones nacionales son solamente una pequeña porción del total de encuestas publicadas. Los comicios estatales son los que más producción de encuestas finales han generado y, probablemente, algunas de sus fallas también han mermado su credibilidad.

La Gráfica 2 muestra el error promedio (M3) y el error ventaja (M5), promediando los errores de todas las encuestas finales en las elecciones de cada año. El error promedio histórico es de 3.9 puntos, por arriba del margen de error típico que reportan las encuestas, el cual suele ser de entre 3 y 3.5%. Hay que recordar que entre más cercano a cero es el indicador, la exactitud de las encuestas es mayor. En el gráfico de Mosteller 3 se observa un patrón de tres periodos en la exactitud de las encuestas preelectorales. Entre 1994 y 2000 el error lucía relativamente alto, rebasando los cuatro puntos promedio en tres de los cinco años incluidos. Le siguió un periodo de mayor exactitud en las encuestas de 2001 a 2009, cuando el error promedio estuvo por debajo de los tres puntos en cinco de siete años electorales y cercanos a 3.5 puntos en los dos restantes. Durante este segundo periodo las encuestas se desempeñaron bastante bien, considerando el error promedio. Pero en 2010 inicia un periodo en el cual el desempeño de las encuestas empeora notablemente, registrando errores promedio mayores o cercanos a los cuatro puntos en cinco de los seis años electorales mostrados. De hecho, el error promedio de 2012 fue el más bajo de este tercer periodo, pero los errores de la elección presidencial, aunados a los errores notables de 2010, 2015 y 2016, son los que han minado seriamente la credibilidad de las encuestas en México en años recientes.

El gráfico correspondiente al indicador Mosteller 5 deja ver con claridad que el error en la estimación de la ventaja ha sido significativamente más alto en la mayoría de los años electorales, promediando 8.6 puntos para todo el periodo 1994-2017.13 Los errores ventaja más altos, por arriba de 10 puntos, se observan en los años electorales de 1998, 2000, 2015 y 2016. Aunque con errores ventaja cercanos a ocho, el periodo de 2001 a 2009 se confirma como el de mayor exactitud en las encuestas electorales.

La información de los errores para el periodo 1994-2017 sugiere que la profesión encuestadora mejoró sustancialmente su desempeño de la década de los 90 (1994-2000), en la cual tuvo un error promedio total de 4.1 puntos, entregando mejores cuentas en el periodo 2001-2009, con un error promedio total de 2.9 puntos. Sin embargo, a partir de 2010 el desempeño empeoró y el error de las encuestas superó incluso al de los 90, con un error promedio total de 4.4 puntos entre 2010 y 2017.

A pesar de sus fallas, las encuestas han sido más exactas en las elecciones nacionales, incluidas las presidenciales, que en las encuestas estatales, de donde proviene el mayor error. Las elecciones presidenciales han registrado un error promedio total de 2.8 puntos (M3) y un error ventaja de 5.6 puntos (M5), considerando 61 encuestas finales en el periodo estudiado. Las estimaciones de encuestas en elecciones legislativas han sido incluso mejores, con un error promedio histórico de 2.6 puntos (M3) y un error ventaja de 4.3 puntos (M5), considerando 43 encuestas finales. Sin embargo, en las elecciones para gobernador las encuestas han registrado una menor exactitud y precisión. El error promedio histórico de los sondeos para contiendas estatales es de 4.2 puntos (M3) y el error ventaja de 9.2 puntos, considerando 577 encuestas finales.14

Si la desviación estándar del error promedio nos sirve como un indicador de la precisión, de qué tan homogéneas o dispersas fueron las encuestas electorales, la desviación estándar de todas las encuestas finales en todo el periodo fue de 2.7 puntos, registrando 1.5 puntos en las elecciones legislativas nacionales, 1.7 puntos en las presidenciales y 2.8 puntos en las estatales. Estas últimas han mostrado una profesión encuestadora menos exacta y menos precisa. Como se dijo, quizás tiene que ver con el hecho de que se registran más encuestas de empresas no conocidas en las elecciones estatales, muchas de las cuales podrían ser de uso propagandístico. Por supuesto, no debemos descontar el hecho de que las encuestas de organizaciones conocidas también han registrado fallas notables en las elecciones estatales. Es la combinación de una mayor diversidad de encuestas y más fallas.

La historia de las encuestas en México es la historia de sus errores. Este análisis muestra que el desempeño temprano fue pobre pero se mejoró sustancialmente, para volver a empeorar con errores de mayor magnitud. La proliferación de encuestas ha estado relacionada con ese mayor error, sobre todo a nivel estatal. Sin embargo, las encuestas en las elecciones nacionales han logrado un mejor desempeño y las principales encuestadoras han logrado niveles de exactitud y precisión muy notables. EP

 

____________________________

Alejandro Moreno es doctor en Ciencia Política por la Universidad de Michigan, profesor del ITAM, consultor y director de encuestas de El Financiero y expresidente de WAPOR. Entre sus libros están El votante mexicano y La decisión electoral.

 

 

 

 

1 Ver Vidal Romero y Carlo Varela, “La precisión de las encuestas preelectorales”, Revista de Estudios Jurídicos Electorales, año 2, no. 0, pp. 30-37.

2 Michael W. Traugott, “The Accuracy of the National Preelection Polls in the 2004 Presidential Election”, Public Opinion Quarterly, vol. 69, no. 5, número especial, 2005, p. 642-654; Francisco Cantú, Verónica Hoyo, Marco A. Morales, “The Utility of Unpacking Survey Bias in Multiparty Elections: Mexican Polling Firms in the 2006 and 2012 Presidential Elections”, International Journal of Public Opinion Research, vol. 28, no. 1, 2016, p. 96–116; Ricardo de la Peña, Para medir la exactitud de las encuestas electorales: Un estimador alternativo para medir la exactitud de las encuestas electorales respecto de los resultados electorales, Saarbrücken, Alemania: Editorial Académica Española, 2016.

3 Frederick Mosteller, The Pleasure of Statistics, Nueva York: Springer, 2010, p. 14.

4 Frederick Mosteller, Herbert Hyman, Philip J. McCarthy, Eli S. Marks, y David B. Truman, The Pre-Election Polls of 1948: Report to the Committee in Analysis of Pre-Election Polls and Forecasts, Nueva York: Social Science Research Council, Bulleyin 60, 1949.

5 Ver, por ejemplo, Ulises Beltrán, “¿Fallaron las encuestas?”, en El papel de las encuestas en las elecciones federales: Memoria del taller Sumiya 2000, op. cit.

6 Martin Elizabeth A., Michael W. Traugott y Courtney Kennedy, “A Review and Proposal for a New Mesure of Polls Accuracy”, Public Opinion Quarterly, vol. 69, no. 3, 2005, pp. 342-369.

7 Ver Michael W. Traugott, “The Accuracy of the National Preelection Polls in the 2004 Presidential Election”, Public Opinion Quarterly, vol. 69, no. 5, número especial, 2005, pp. 642-654.

8 Cantú, Hoyo y Morales, op. cit.

9 Ricardo de la Peña, Para medir la exactitud de las encuestas electorales, op. cit., 2016.

10 Leo Zuckermann, “¿Quién es quién en las encuestas?”, Nexos 411, marzo 2012.

11 Ibidem, p. 48.

12 Leo Zuckermann, “¿Quién es quién en las encuestas después de la elección de 2012?”, Nexos 416, agosto 2012.

13 El indicador M5 podría ajustarse considerando que la diferencia en ventaja también es sensible al margen de error en la estimación del porcentaje obtenido en la encuesta por el primero y segundo lugares. Debido a que el margen de error puede ampliar o disminuir esa ventaja, en el análisis decidí dejar el error ventaja M5 sin ningún ajuste, se trata de las diferencia directas entre la ventaja de la elección y la ventaja del sondeo.

14 Se incluyeron en este cálculo las encuestas para jefe de gobierno del DF, pero no las de la Asamblea Legislativa del DF, que sí están contempladas en el total de la base de datos.

Más de este autor