Comment une erreur de traitement des données a changé nos prévisions de luxe

Peu de temps après les élections de mi-mandat, nous avons commencé notre processus régulier d’évaluation des performances des prévisions de FiveThirtyEight. Nous avons rapidement découvert une erreur : nous utilisions des données obsolètes pour une source importante utilisée dans la version Deluxe de nos prévisions. Bien que cela ait eu peu d’impact sur les chiffres de la première ligne pour la chance de chaque parti de contrôler une chambre du Congrès, cela a eu des effets modestes à moyens sur certaines courses individuelles dans les prévisions de luxe. Cela n’a eu aucun effet sur les prévisions Lite ou Classic.

Les prévisions Deluxe diffèrent des prévisions Classic et Lite en ce sens qu’elles tiennent compte des cotes de course publiées par trois groupes : The Cook Political Report, Sabato’s Crystal Ball et Inside Elections. Après avoir ajouté de nouvelles cotes Inside Elections pour les courses à la Chambre fin septembre, nous avons remarqué ce que nous pensions être une anomalie dans les prévisions. Pour enquêter, nous avons désactivé les mises à jour automatiques pour les évaluations de la maison de ce site. Nous avons déterminé que le modèle d’élection fonctionnait correctement, mais nous avons omis de réactiver les mises à jour automatiques d’Inside Elections. En conséquence, les classements des élections internes pour les courses à la maison ont été gelés dans le temps à la fin septembre. (Pour être clair, c’était l’erreur de FiveThirtyEight et il n’y a aucune faute avec Inside Elections ou leurs notes.)

Si nous avions exécuté le modèle avec les notes mises à jour, les prévisions finales auraient toujours montré aux républicains 84% ​​de chances de remporter la Chambre, la même chose que notre prévision finale avec les notes obsolètes. Et les républicains auraient eu 55 % de chances de remporter le Sénat, au lieu de 59 %. (Même si les cotes des élections internes pour les courses au Sénat et au poste de gouverneur ont été mises à jour, en raison du fonctionnement du modèle, il y a également eu des effets indirects très mineurs sur les prévisions du Sénat et du poste de gouverneur Deluxe.)

Un seul pronostic individuel de course décalé de Suite plus d’une catégorie à la suite de l’erreur (par exemple, une course passant de « républicain maigre » à « démocrate maigre », sautant le « lancer »), et un certain nombre a eu un changement d’une catégorie, comme indiqué dans le tableau ci-dessous.

Des courses où les notes auraient changé si nous avions corrigé notre erreur

Courses de mi-parcours 2022 où les catégories de classement des courses ont changé après correction des données manquantes dans notre modèle Deluxe préélectoral final

prévoir
course
évaluation
Dém chances
évaluation
Dém chances
Diff en Dém chances
Loger VA-02 Lancer en l’air 47,8 % Maigre R 33,1 % -14,7
Loger TX-15 Lancer en l’air 54.1 Maigre R 39,9 -14,2
Loger IA-03 Lancer en l’air 42.3 Maigre R 28.3 -13,9
Loger WA-08 Maigre D 72,4 Lancer en l’air 58,8 -13,7
Loger CT-05 Maigre D 60,7 Lancer en l’air 47.3 -13,5
Loger IL-17 Maigre D 62.2 Lancer en l’air 49.3 -12,9
Loger OR-05 Lancer en l’air 42.3 Maigre R 29,9 -12,4
Loger AZ-02 Maigre R 34.2 Probablement R 22.2 -12.0
Loger CA-13 Maigre D 66,6 Lancer en l’air 54,8 -11.8
Loger NY-17 Maigre D 70.1 Lancer en l’air 58,5 -11.5
Loger PA-07 Lancer en l’air 43,9 Maigre R 32.4 -11.5
Loger MN-02 Probablement D 80,0 Maigre D 68,8 -11.2
Loger CA-49 Probablement D 81,8 Maigre D 71.4 -10,4
Loger NJ-07 Maigre R 28.4 Probablement R 18.2 -10.2
Loger MI-07 Maigre D 65,3 Lancer en l’air 55,4 -9.9
Loger NV-03 Maigre D 61,5 Lancer en l’air 51,8 -9.7
Loger NY-03 Maigre D 68.3 Lancer en l’air 58,9 -9.4
Loger NH-01 Maigre D 67,0 Lancer en l’air 58.2 -8.8
Loger ME-02 Maigre D 66,9 Lancer en l’air 59.3 -7.6
Loger NY-04 Probablement D 77,7 Maigre D 70,5 -7.2
Loger CA-47 Probablement D 79,7 Maigre D 72,6 -7.1
Loger TX-28 Probablement D 75,9 Maigre D 70.3 -5.6
Loger OH-09 Probablement D 77,8 Maigre D 72.3 -5.5
Loger CA-41 Solide R 5.3 Probablement R 6.0 +0,7
Gouverneur VN Maigre R 38,9 Lancer en l’air 41.1 +2,2
Loger NY-02 Solide R 3.6 Probablement R 6.6 +3,1
Loger AZ-01 Solide R 5.4 Probablement R 10.7 +5,3
Loger CA-45 Probablement R 19.3 Maigre R 27.4 +8.1
Loger NY-01 Probablement R 22.6 Maigre R 31,7 +9.1
Loger CA-27 Maigre R 36,6 Lancer en l’air 49.2 +12,6
Loger CA-22 Maigre R 39.1 Lancer en l’air 52,7 +13,5
Loger OH-01 Probablement R 16.1 Maigre R 29,9 +13,8
Loger NM-02 Probablement R 22.4 Maigre R 37.2 +14,7
Loger OH-13 Probablement R 18.6 Maigre R 33,9 +15,3
Loger NC-13 Probablement R 23.4 Maigre R 39.1 +15,8
Loger NY-22 Maigre R 35,8 Lancer en l’air 52.3 +16,5
Loger MI-03 Lancer en l’air 59.1 Probablement D 77,8 +18,7

Ne figure pas dans ce tableau la course à la maison dans le 3e district du Congrès de Washington, qui n’a pas vu de changement dans sa catégorisation. Il a été remporté par la démocrate Marie Gluesenkamp Perez, qui figurait sur la liste avec seulement 2% de chances dans les prévisions. Si les classements Inside Elections mis à jour avaient été utilisés, elle aurait eu 4% de chances à la place. La course a donc été un bouleversement majeur dans les deux sens – même s’il faut garder à l’esprit que lorsqu’un modèle émet des prévisions pour 435 districts de House, il faut s’attendre à des bouleversements à faible probabilité si le modèle est correctement calibré.

Nous examinons nos processus internes afin de mieux identifier les erreurs de cette nature. Une leçon est que les petites erreurs sont parfois plus difficiles à détecter que les plus grandes. Si nos prévisions dans une course aussi médiatisée que l’élection du Sénat américain en Pennsylvanie avaient considérablement différé du consensus, nous l’aurions rapidement étudiée. Cependant, les petites anomalies dans une série de races House pour la plupart discrètes sont plus difficiles à détecter avec le «test de la vue». Nous apprécions également fortement les commentaires des lecteurs, notamment en nous alertant de prévisions potentiellement anormales. Bien que nos modèles soient assez complexes, les prévisions devraient toujours découler logiquement des entrées. Si une prévision donnée est difficile à expliquer, cela peut refléter un problème avec les données sous-jacentes ou avec la façon dont nous les traitons.

Pour évaluer les performances des prévisions de FiveThirtyEight – par exemple, en comparant nos performances à d’autres prévisions – nous vous recommandons d’utiliser les prévisions originales telles que publiées, même si elles utilisaient des classements Inside Elections obsolètes. Bien sûr, nous aurions préféré utiliser les notes mises à jour, mais nous ne pensons pas que nous devrions être crédités d’une erreur que nous n’avons identifiée qu’après coup. En procédant à notre propre évaluation de nos prévisions une fois tous les appels de course finalisés, nous vous montrerons quatre versions au lieu de nos trois habituelles : Lite, Classic, Deluxe (telle que publiée) et Deluxe (corrigée).

Un ensemble complet de fichiers montrant ce que nos prévisions finales Deluxe auraient montré compte tenu des évaluations mises à jour des élections internes peut être trouvé ici.

FiveThirtyEight regrette l’erreur. Nous apprécions le temps que vous passez sur le site, et nous espérons que vous avez trouvé notre couverture des élections de mi-mandat précieuse malgré cela.