Avec les courses de lévriers, les combats de poissons et les législatives 2017, les courses hippiques sont les compétitions animales les plus prisées des parieurs.
Foin du hasard, l’entraînement et la sélection génétique de ces superbes animaux, permettent au parieur avisé d’estimer quel cheval arrivera le premier. Alors comment gagner aux courses de chevaux?
Pourquoi est il difficile de gagner aux courses?
Pour réussir des crêpes il faut maîtriser 3 éléments : farine, oeuf, lait. Difficile de se tromper.
Pour réussir aux courses, c’est plus d’une dizaine d’éléments très complexes qui doivent être pris en compte :
En outre une course est une compétition, les positions d’arrivée ne reflètent pas uniquement la performance d’un cheval donné, mais les performances comparées de 6, 10 voire 25 chevaux différents! Comprendre et maîtriser ces différents facteurs (jockey, entraîneur, numéro de corde…) peut prendre des années.
Parlons maintenant de statistique…
Analyser des dizaines de variables différentes pour décrire un système aléatoire complexe, voilà plus ou moins ce à quoi je travaille depuis plus de 10 ans.
Comment une analyse statistique, couplée à une intelligence artificielle, réagit lorsque je lui demande de me prédire les résultats des courses hippiques?
Après m’être documenté sur les courses hippiques (voir ce lexique), j’ai commencé par récolter les résultats des courses passées :
De 2011 à 2017, ce sont ainsi 11.498 courses, soit plus de 169.740 arrivées de chevaux qui ont été stockées, avec toutes les informations disponibles : musique, oeillères, jockey, distance, nature du sol, etc…
Commençons simplement avec les variables suivantes:
- le jockey
- l’entraîneur
- le numéro de corde
- la cote
- la base du pronostique
- le pronostique total
- le poids total
- la position lors de la dernière course
- la position moyenne des 3 dernières courses
- la position moyenne des 5 dernières courses
Les points-clés de l’algorithme sont :
- utiliser des valeurs relatives : ce n’est pas la cote d’un cheval qui compte, mais sa cote comparée aux autres chevaux de la course. Par exemple si les cotes sont 1, 5, 7, 10, elles seront remplacés par (max(cote)-cote)/(max(cote)-min(cote)) = 1, 0.55, 0.33, 0.
- normaliser les variables : chaque variable (oeillères, position…) est convertie en une fraction de course placée. Par exemple si le cheval n’a pas d’oeillères, on convertira cette variable oeillère en la probabilité pour un cheval d’être placé si il ne porte pas d’oeillères.
- Tous les chevaux sont a-priori premiers, car chacun est capable de terminer la course. Ce n’est que la présence des autres chevaux qui détermine la position finale.
Ces 10 variables sont alors données à une méthode d’intelligence artificielle appelée “Gradient Boosted Machine“. Cette méthode cherche à classer les différents chevaux à partir des courses passées, en appliquant des critères sur chaque variable. Au total 1000 sélections différentes (appelées arbre de décision) sont définies et combinées pour donner un outil de prédiction de la position de chaque cheval. Cette méthode de Gradient Boosted Machine a été choisie étant donné le nombre important de courses à disposition, la flexibilité et la rapidité de cette méthode. Ses différents paramètres ont été optimisés afin de fournir la prédiction la plus précise.
Toutes les variables ne sont pas d’égale importance, les deux graphes ci-dessous donnent les importance relative de chaque relative pour les 10 variables (droite), et dans le cas où nous ne disposons pas de la cote pour les chevaux (gauche) :
la cote et le pronostique sont les variables les plus importantes, suivies par le numéro de corde, le jockey et l’entraîneur. Il est intéressant de noter que l’entraîneur a autant, et desfois plus, d’importance que le jockey.
Prédiction statistique des arrivées de courses
Considérons les chevaux que mon analyse donne gagnant, c’est à dire avec une position d’arrivée 1 (voir graphe ci-dessous), le cheval arrive premier dans 27% des cas, et est placé dans 61% des cas.
Pas mal, mais y-a-t-il des situations où cette prédiction est encore meilleure? Considérons différentes variables… Les graphes que vous allez voir s’appellent des “box plots“. La barre noire représente la moyenne de la population présentée, et la boîte bleue représente 50% de cette population.
L’âge du cheval
Commençons par l’âge, les chevaux de moins de 4 ans ont l’air plus facile à prédire que leurs aînés, la probabilité que le cheval gagne est alors de 33% et qu’il soit placé de 71% :
Les oeillères
Accessoire nécessaire aux chevaux trop nerveux, il semble que les chevaux sans oeillères soient en effet plus facile à prédire, avec une probabilité de gagner de 29% et une probabilité d’être placé de 68% :
Les 10 dernières courses du cheval
Considérons la position moyenne des 10 dernières courses, on observe clairement que les chevaux avec une position moyenne inférieure à 4 ont plus de chance de gagner : 33% d’arriver premier, et 69% d’être placé :
L’heure de la course
Passons à l’environnement de la course avec l’heure du départ. Les chevaux de course sont des créatures très sensibles et nerveuses, qui préfèrent clairement les courses le matin et en soirée :
Le mois de la course
Il en est de même pour les mois de l’année : les jours froids de l’hiver et ceux caniculaires de l’été ne plaisent pas aux chevaux.
C’est clairement au printemps et à l’automne que les chevaux se sentent le mieux et sont plus faciles à prédire :
La distance totale de la course
Une course est un événement à rebondissement, plus elle est longue, plus le favori a de chance de se voir voler la 1ere place sous le museau. Les courses de moins de 1400m sont ainsi les plus faciles à prédire
Au final, dans la situation optimale d’un cheval de moins de 3 ans, sans oeillères, placé en moyenne lors des 10 dernières courses, et courant sur une distance de moins de 1400m, la probabilité d’être correctement prédit gagnant monte à 83%, tandis que la probabilité d’être correctement prédit placé monte à 93%.
Performance face à des paris standards comme ceux de la plateforme ZeTurf :
Nom du pari | Description | Probabilité de réussite |
---|---|---|
sg | Simple gagnant | 29,8 % |
sp | Simple placé | 94,2 % |
tr | Trio dans le désordre | 11,8 % |
tri | Trio dans l'ordre | 2,7 % |
zs | Second | 19 % |
zc | Quatrième | 13,6 % |
jgg | Jumeaux gagnants | 14,1 % |
jgp | Jumeaux placés | 31,2 % |
z24 | Jumeaux placés dans les 4 | 89,9 % |
z4 | 4 premiers dans le désordre | 12,7 % |
z5 | 5 premiers dans le désordre | 16,4 % |
s4 | 4 paris simples | 94,3 % |
ju | 2 premiers dans l'ordre | 7,7 % |
ze234 | Combinaison de 3 paris | 27,1 % |
ze345 | Combinaison de 3 paris | 26,9 % |
Conclusion
De nombreuses études ont tenté de prédire l’arrivée des chevaux de courses, mais elles souffrent généralement :
- d’un certain amateurisme : ce sont souvent des travaux d’étudiants, de qualité certes mais trop préliminaires
- d’un manque de données, je dispose des informations de 11.498 courses
- d’un manque de préparation des données
- de l’hypothèse que la position d’un cheval est une valeur absolue
L’outil statistique présenté ici semble être capable de prédire avec un taux de réussite élevé si un cheval sera placé ou non. Cette analyse reste toutefois préliminaire et des améliorations importantes peuvent être apportées (météo, trend du cheval, etc…).
Si vous avez un commentaire ou une question, n’hésitez pas à me contacter par email.
13Juin 2017
Xavier Prudent