Aucune des hypothèses concernant le comportement des électeurs ne peut entièrement expliquer l’écart entre les sondages et les résultats du scrutin.

(Cet article a été traduit en anglais.)

Aux élections du 1er octobre 2018, à la surprise générale, la Coalition avenir Québec (CAQ) a remporté la victoire avec une avance de 12,6 points sur le Parti libéral du Québec (PLQ), alors que les sondages donnaient les deux partis pratiquement nez à nez dans les intentions de vote.

Comme l’ont rappelé les analystes (dont l’auteure), la surprise était d’autant plus grande que, historiquement, les sondages avaient eu tendance à sous-estimer l’appui au PLQ, surtout lorsqu’il risquait de perdre le pouvoir, et à surestimer l’appui aux partis plus petits. Tous s’attendaient donc à un résultat plus serré encore entre les deux partis en tête et à un écart plus grand entre les deux autres partis, soit Québec solidaire (QS) et le Parti québécois (PQ). Les résultats de l’élection leur ont donné tort. L’écart entre les sondages et le vote pour les partis en tête est le plus considérable jamais enregistré depuis la publication de sondages électoraux au Québec, dépassant celui de l’élection de 1998. Que s’est-il passé ?

Les sondages et les résultats

La figure suivante montre l’évolution des intentions de vote durant la campagne. Les points représentent les estimations des sondages publiés, et les lignes, l’évolution estimée au moyen d’une régression locale, une procédure qui accorde moins de poids aux données extrêmes et qui tient compte de l’évolution dans le temps. Selon l’estimation de l’ensemble des sondages de la campagne, 32 % des votes devaient aller à la CAQ, 29 % au PLQ, 18 % au PQ et 17 % à QS. Mais à l’élection, 37,4 % sont allés à la CAQ, 24,8 % au PLQ, 17,1 % au PQ et 16,1 % à QS.

Le tableau ci-dessous se centre uniquement sur les résultats des derniers sondages de la campagne, ce qui permet d’utiliser des indices connus de l’erreur des sondages. Les mesures M3 et M5 de Mosteller ont l’avantage de permettre la comparaison avec d’autres élections.

L’écart entre les derniers sondages et les résultats du scrutin pour les deux principaux partis (M5) varie de 7,6 points (Forum) à 11,6 points (Ipsos), pour une moyenne de 10 points. Ce niveau d’erreur se compare à ce qui a été observé lors de l’élection en Colombie-Britannique en 2013 (10 points), mais se situe nettement en dessous de celui de l’élection albertaine de 2012 (17 points). Dans ces deux provinces, les estimations lors d’élections subséquentes ont été bonnes, ce qui rassurera sans doute tant les sondeurs que les électeurs. Pour ce qui est de l’erreur moyenne pour les quatre principaux partis (M3), elle varie entre 2,65 (Research Co.) et 3,58 (Mainstreet), pour une moyenne de 2,6.

On peut comparer l’erreur des sondages de 2018 à celle de l’élection québécoise de 1998, la dernière « erreur importante » des sondages au Québec. Les quatre derniers sondages prédisaient alors que le PQ l’emporterait aisément sur le PLQ, avec une marge moyenne de près de 7 points. L’élection s’est soldée plutôt par une avance de près de 1 point du PLQ sur le PQ. À l’inverse de 2018, il s’agissait donc d’une forte surestimation de l’écart et d’une mauvaise prédiction du parti en tête. Néanmoins, l’erreur moyenne pour les partis en tête (M5) était de 7,4 points, bien en deçà de celle de 2018, mais l’erreur moyenne pour les trois principaux partis (M3) se situait à 2,9 points, donc au-dessus de celle de 2018.

Explications possibles des écarts

Plusieurs hypothèses peuvent être avancées pour tenter d’expliquer l’écart entre les sondages et les résultats du scrutin pour ce qui est des partis en tête. Elles portent soit sur un comportement imprévu des électeurs (changement de dernière minute, participation différenciée, composition différente de l’électorat), soit sur des problèmes méthodologiques des sondages. La plupart de ces hypothèses devront être validées par des analyses subséquentes.

Le comportement des électeurs

On peut penser que certains électeurs se sont décidés à la dernière minute à voter pour la CAQ. Cette hypothèse est plausible, puisque les sondages montrent une légère remontée de la CAQ en fin de campagne et que certains sondages réalisés durant les derniers jours de la campagne pointent vers un plus grand écart entre la CAQ et le PLQ. Mais cette hypothèse ne pourrait expliquer qu’une petite partie de l’écart, étant donné que les sondages se sont poursuivis jusqu’à la fin. Le seul moyen de la valider serait de recontacter les répondants des sondages pour connaître leur comportement le jour de l’élection.

La deuxième hypothèse est celle d’une participation différenciée. Non seulement les électeurs traditionnellement acquis au PLQ auraient été plus nombreux à s’abstenir, mais encore les jeunes favorables à QS auraient voté plus massivement que dans les élections antérieures. Les deux cas de figure sont plausibles. Dans cette élection, la participation a été historiquement basse, la plus basse depuis 1927 si on fait exception du scrutin de 2008. Et cette baisse a été particulièrement prononcée dans les circonscriptions où vit une forte proportion de non-francophones, qui élisent habituellement des députés du PLQ.

Le tableau 2 présente, pour toutes les circonscriptions à forte proportion de non-francophones du centre et de l’ouest de l’île de Montréal, la proportion de votes pour le PLQ, le taux de participation au scrutin ainsi que l’écart entre ce taux et la moyenne provinciale. Il montre que, dans toutes les élections depuis 2008, la participation au vote dans ces circonscriptions a été moins élevée que la moyenne provinciale, à l’exception de 2014 (une élection où la participation des non-francophones, fortement opposés à la Charte des valeurs, avait atteint des sommets). Elle a été particulièrement basse à l’élection de 2008, où les sondages donnaient une majorité au PLQ, surévaluant son score.

Le tableau 2 accrédite l’idée que les non-francophones qui demeurent dans des circonscriptions où le PLQ possède toujours une confortable majorité se mobilisent lorsque des enjeux importants à leurs yeux sont soulevés. Il montre aussi que l’élection de 2018 ne les a pas mobilisés : leur taux de participation a varié entre 46 % et 65 %, pour une moyenne de 56 %, soit 11 points sous la participation moyenne dans l’ensemble du Québec. Cet écart est équivalent à celui de 2008 (13 points). Il y a une relation négative entre la proportion de non-francophones et la participation au vote : plus il y a de non-francophones dans une circonscription, moins la participation est élevée. Cette disparité peut donc expliquer une partie de la forte surestimation du vote pour le PLQ.

À l’autre extrémité de l’équation se trouve l’absence de surévaluation du vote pour QS. On sait que les jeunes appuient fortement cette formation, mais qu’ils ont moins tendance à aller voter. Toutefois, les statistiques publiées par le Directeur général des élections du Québec (DGEQ) révèlent que, lors de l’élection de 2014, les jeunes urbains étaient plus enclins à aller voter que les jeunes non urbains. Ce ne sont que les données complètes du DGEQ qui permettront de valider l’hypothèse d’une plus grande participation des jeunes urbains à cette élection. Par contre, cette information ne permet pas d’expliquer la forte sous-estimation du vote pour la CAQ.

Et les électeurs « discrets », ceux qui sont indécis jusqu’à la fin ou qui refusent de révéler leurs intentions ? Les recherches ont montré que la sous-estimation récurrente du vote pour le PLQ dans presque toutes les élections ― appelée parfois « prime à l’urne » ― pourrait être attribuée à un biais des échantillons de départ, à une moins forte coopération aux sondages ou à une propension moindre chez les électeurs du PLQ à révéler leur intention de vote. Ce constat avait amené les analystes, de même que les sondeurs et les médias, à répartir les discrets de façon non proportionnelle pour compenser le phénomène. Cette façon de faire a permis de produire de meilleures estimations depuis les années 1990. Toutefois, il faut noter que la proportion de discrets est fortement liée à la méthode utilisée par les sondeurs. Durant la récente campagne, les sondeurs procédant par sondages téléphoniques automatisés ont eu des proportions de discrets très faibles, de l’ordre de 5 %, alors que dans les sondages Web, ces taux se situaient à un peu plus de 10 %.

Une répartition non proportionnelle des discrets a donc un impact uniquement sur les estimations de certains sondages. Celle que j’ai utilisée durant la campagne ― 50 % au PLQ, 25 % à la CAQ tout comme au PQ ― changeait peu les estimations, sinon pour confirmer que les deux partis en tête étaient pratiquement à égalité.

Pour arriver aux résultats de l’élection avec un sondage hypothétique donnant 32 % des appuis à la CAQ, 29 % au PLQ, 18 % au PQ, 17 % à QS et 3 % aux autres partis, et comptant 20 % de discrets, il aurait fallu attribuer 57 % des discrets à la CAQ et seulement 9 % au PLQ. Si on fait le même exercice avec une redistribution de 10 % de discrets, il aurait fallu attribuer 82 % d’entre eux à la CAQ et 0 % au PLQ, qui serait demeuré surestimé. L’hypothèse que l’erreur des sondages résulterait surtout d’une mauvaise redistribution des discrets apparaît donc peu plausible. Par contre, l’hypothèse de la présence de discrets caquistes ne peut pas être rejetée.

Les méthodologies des sondeurs

Les sondeurs ont utilisé des méthodologies différentes pour faire leurs sondages. Qu’ils aient opté pour les sondages téléphoniques automatisés (Mainstreet et Forum), fait appel au Web (Léger, CROP et Research Co.) ou combiné un échantillon Web et un sondage téléphonique avec interviewers (Ipsos), le niveau d’erreur des cinq maisons qui ont publié des sondages dans la dernière semaine de la campagne électorale est assez similaire, si on excepte le sondage Forum réalisé la veille de l’élection. Difficile dans de telles circonstances d’attribuer l’erreur entièrement aux échantillons, sauf pour penser que les sondeurs, quelle que soit la méthode employée et la source de leurs échantillons, rejoignent moins le type d’électeurs qui appuient la CAQ. Étant donné que l’information fournie sur les échantillons et la pondération n’est pas toujours complète, il n’est pas possible d’aller beaucoup plus loin.

Que faire ?

La meilleure solution serait d’effectuer une étude indépendante sur l’erreur des sondages à cette élection, commanditée par une association qui regroupe les sondeurs et suscite la collaboration de tous, comme cela a été fait après l’élection britannique de 2015, à l’initiative du British Polling Council. Hélas, l’Association de la recherche et de l’intelligence marketing (ARIM), qui réunissait les sondeurs canadiens, a été dissoute à peine deux mois avant les élections québécoises, en juillet 2018. Il demeure que les sondeurs ont tout intérêt à rétablir la confiance du public et donc à tenter de comprendre ce qui s’est passé. Comme des mouvements de dernière minute et une participation différenciée ne peuvent expliquer qu’une partie de l’erreur, il est essentiel qu’ils retournent à l’échantillon et comparent les intentions de vote annoncées durant la campagne au comportement déclaré le jour du scrutin. Pour rassurer les électeurs, les résultats de ces analyses devraient être rendus publics, en toute transparence. Ils devraient permettre de comprendre quelle partie de l’erreur est due à un comportement inhabituel particulier tout en ouvrant des pistes pour savoir comment tenir compte d’une telle possibilité dans l’avenir.

Plusieurs analystes pointent l’absence d’un modèle d’électeur probable (Likely Voter Model), utilisé dans beaucoup de pays. Si le recours à un tel modèle paraît souhaitable à première vue, diverses expériences montrent que ce n’est pas une panacée. Les sondeurs qui ont tenté d’employer ces modèles dans l’élection de 2013 en Colombie-Britannique et dans celle de 2014 en Ontario ont plutôt conclu qu’ils détérioraient la qualité de la prédiction. Après l’élection présidentielle de 2017 au Chili, les analyses ont même montré que toutes les estimations faites avec des modèles d’électeur probable étaient moins adéquates que celles faites avec l’ensemble de l’échantillon.

Force est de constater qu’aucune des hypothèses concernant le comportement des électeurs ne peut à elle seule expliquer l’écart entre les sondages et les résultats du scrutin. Par ailleurs, toutes les analyses indépendantes des erreurs des sondages, y compris lors de l’élection québécoise de 1998, concluent que la cause majeure est à chercher dans le biais des échantillons. Mais c’est une question difficile à étudier et surtout à corriger.

Contrairement à ce que l’on pourrait penser, il n’arrive pas souvent que les sondages se trompent. De plus, les recherches montrent que les erreurs de prédiction ont diminué avec le temps. C’est la forte médiatisation des situations d’erreur qui renforce l’impression que les sondages se trompent souvent. L’histoire des sondages révèle aussi que, lorsqu’elles ont été sérieusement étudiées, les erreurs des sondages ont toujours mené à une amélioration des méthodes. Elles ont aussi l’avantage d’inciter à une plus grande prudence.

Cet article fait partie du dossier Élections Québec 2018.

Photo : Des partisans de la Coalition avenir Québec regardent les résultats de l’élection sur un écran géant, montrant leur leader François Legault, le 1er octobre 2018. La Presse canadienne / Paul Chiasson.