Comment gagner aux courses de chevaux?

Avec les courses de lévriers, les combats de poissons et les législatives 2017, les courses hippiques sont les compétitions animales les plus prisées des parieurs.

Foin du hasard, l’entraînement et la sélection génétique de ces superbes animaux, permettent au parieur avisé d’estimer quel cheval arrivera le premier. Alors comment gagner aux courses de chevaux?

Pourquoi est il difficile de gagner aux courses?

Pour réussir des crêpes il faut maîtriser 3 éléments : farine, oeuf, lait. Difficile de se tromper.

Pour réussir aux courses, c’est plus d’une dizaine d’éléments très complexes qui doivent être pris en compte :

complexité des courses hippiques

En outre une course est une compétition, les positions d’arrivée ne reflètent pas uniquement la performance d’un cheval donné, mais les performances comparées de 6, 10 voire 25 chevaux différents! Comprendre et maîtriser ces différents facteurs (jockey, entraîneur, numéro de corde…) peut prendre des années.

Parlons maintenant de statistique…

Analyser des dizaines de variables différentes pour décrire un système aléatoire complexe, voilà plus ou moins ce à quoi je travaille depuis plus de 10 ans.

Comment une analyse statistique, couplée à une intelligence artificielle, réagit lorsque je lui demande de me prédire les résultats des courses hippiques?

Après m’être documenté sur les courses hippiques (voir ce lexique), j’ai commencé par récolter les résultats des courses passées :

example-siteweb

De 2011 à 2017, ce sont ainsi 11.498 courses, soit plus de 169.740 arrivées de chevaux qui ont été stockées, avec toutes les informations disponibles : musique, oeillères, jockey, distance, nature du sol, etc…

Commençons simplement avec les variables suivantes:

  1.  le jockey
  2. l’entraîneur
  3. le numéro de corde
  4. la cote
  5. la base du pronostique
  6. le pronostique total
  7. le poids total
  8. la position lors de la dernière course
  9. la position moyenne des 3 dernières courses
  10. la position moyenne des 5 dernières courses

Les points-clés de l’algorithme sont :

  • utiliser des valeurs relatives : ce n’est pas la cote d’un cheval qui compte, mais sa cote comparée aux autres chevaux de la course. Par exemple si les cotes sont 1, 5, 7, 10, elles seront remplacés par (max(cote)-cote)/(max(cote)-min(cote)) = 1, 0.55, 0.33, 0.
  • normaliser les variables : chaque variable (oeillères, position…) est convertie en une fraction de course placée. Par exemple si le cheval n’a pas d’oeillères, on convertira cette variable oeillère en la probabilité pour un cheval d’être placé si il ne porte pas d’oeillères.
  • Tous les chevaux sont a-priori premiers, car chacun est capable de terminer la course. Ce n’est que la présence des autres chevaux qui détermine la position finale.

Ces 10 variables sont alors données à une méthode d’intelligence artificielle appelée “Gradient Boosted Machine“. Cette méthode cherche à classer les différents chevaux à partir des courses passées, en appliquant des critères sur chaque variable. Au total 1000 sélections différentes (appelées arbre de décision) sont définies et combinées pour donner un outil de prédiction de la position de chaque cheval. Cette méthode de Gradient Boosted Machine a été choisie étant donné le nombre important de courses à disposition, la flexibilité et la rapidité de cette méthode. Ses différents paramètres ont été optimisés afin de fournir la prédiction la plus précise.

Toutes les variables ne sont pas d’égale importance, les deux graphes ci-dessous donnent les importance relative de chaque relative pour les 10 variables (droite), et dans le cas où nous ne disposons pas de la cote pour les chevaux (gauche) :

 

decision-tree-horse-race-9var decision-tree-horse-race-10var

la cote et le pronostique sont les variables les plus importantes, suivies par le numéro de corde, le jockey et l’entraîneur. Il est intéressant de noter que l’entraîneur a autant, et desfois plus, d’importance que le jockey.

 

Prédiction statistique des arrivées de courses

Considérons les chevaux que mon analyse donne gagnant, c’est à dire avec une position d’arrivée 1 (voir graphe ci-dessous), le cheval arrive premier dans 27% des cas, et est placé dans 61% des cas.

position_prediction_pos1

Pas mal, mais y-a-t-il des situations où cette prédiction est encore meilleure? Considérons différentes variables… Les graphes que vous allez voir s’appellent des “box plots“. La barre noire représente la moyenne de la population présentée, et la boîte bleue représente 50% de cette population.

L’âge du cheval

Commençons par l’âge, les chevaux de moins de 4 ans ont l’air plus facile à prédire que leurs aînés, la probabilité que le cheval gagne est alors de 33% et qu’il soit placé de 71% :

perf_prediction_pos1_age

Les oeillères

Accessoire nécessaire aux chevaux trop nerveux, il semble que les chevaux sans oeillères soient en effet plus facile à prédire, avec une probabilité de gagner de 29% et une probabilité d’être placé de 68% :

perf_prediction_pos1_oeill

Les 10 dernières courses du cheval

Considérons la position moyenne des 10 dernières courses, on observe clairement que les chevaux avec une position moyenne inférieure à 4 ont plus de chance de gagner : 33% d’arriver premier, et 69% d’être placé :

perf_prediction_pos1_last10

L’heure de la course

Passons à l’environnement de la course avec l’heure du départ. Les chevaux de course sont des créatures très sensibles et nerveuses, qui préfèrent clairement les courses le matin et en soirée :

perf_prediction_pos1_heure

Le mois de la course

Il en est de même pour les mois de l’année : les jours froids de l’hiver et ceux caniculaires de l’été ne plaisent pas aux chevaux.

C’est clairement au printemps et à l’automne que les chevaux se sentent le mieux et sont plus faciles à prédire :

perf_prediction_pos1_mois

La distance totale de la course

Une course est un événement à rebondissement, plus elle est longue, plus le favori a de chance de se voir voler la 1ere place sous le museau. Les courses de moins de 1400m sont ainsi les plus faciles à prédire

pref_prediction_pos1_dist

Au final, dans la situation optimale d’un cheval de moins de 3 ans, sans oeillères, placé en moyenne lors des 10 dernières courses, et courant sur une distance de moins de 1400m, la probabilité d’être correctement prédit gagnant monte à 83%, tandis que la probabilité d’être correctement prédit placé monte à 93%.

Performance face à des paris standards comme ceux de la plateforme ZeTurf :

Nom du pariDescriptionProbabilité de réussite
sgSimple gagnant29,8 %
spSimple placé94,2 %
trTrio dans le désordre11,8 %
triTrio dans l'ordre2,7 %
zsSecond19 %
zcQuatrième13,6 %
jggJumeaux gagnants14,1 %
jgpJumeaux placés31,2 %
z24Jumeaux placés dans les 489,9 %
z44 premiers dans le désordre12,7 %
z55 premiers dans le désordre16,4 %
s44 paris simples94,3 %
ju2 premiers dans l'ordre7,7 %
ze234Combinaison de 3 paris27,1 %
ze345Combinaison de 3 paris26,9 %

Conclusion

De nombreuses études ont tenté de prédire l’arrivée des chevaux de courses, mais elles souffrent généralement :

  • d’un certain amateurisme : ce sont souvent des travaux d’étudiants, de qualité certes mais trop préliminaires
  • d’un manque de données, je dispose des informations de 11.498 courses
  • d’un manque de préparation des données
  • de l’hypothèse que la position d’un cheval est une valeur absolue

L’outil statistique présenté ici semble être capable de prédire avec un taux de réussite élevé si un cheval sera placé ou non. Cette analyse reste toutefois préliminaire et des améliorations importantes peuvent être apportées (météo, trend du cheval, etc…).

 

Si vous avez un commentaire ou une question, n’hésitez pas à me contacter par email.

13Juin 2017
Xavier Prudent