Systèmes de notation des brackets NCAA

Introduction

Au cours du tournoi de basket-ball masculin NCAA 2015, j’ai gagné notre pool de bureau en (1) choisissant alors invaincu Kentucky à perdre – bien que plus tôt que leur défaite réelle du Final Four contre le Wisconsin – et (2) choisir Duke pour gagner le match de championnat. Ce fut une victoire de retour pour mon groupe, passant de la 14e à la 7e à la 1ère… sur la durée des trois derniers matchs du tournoi de 63 matchs.

Mais aurais-je dû gagner? Notre pool a utilisé le système de notation commun des tranches d’attribution:

  • 1 point pour chaque choix correct dans le premier tour de 64 équipes,
  • 2 points pour chaque choix correct dans le deuxième tour de 32 équipes,
  • 4 points pour chaque choix correct dans le troisième tour de 16 équipes,
  • 8 points pour chaque choix correct dans le quatrième tour de 8 équipes,
  • 16 points pour chaque choix correct dans les deux derniers matchs,
  • 32 points pour avoir choisi correctement le champion.

Ce système de « doublage » a plusieurs motivations mathématiques raisonnables. Par exemple, chaque tour de jeux vaut potentiellement le même nombre de points (32). De plus, en supposant que toutes les équipes sont égales ou équivalentes, en supposant que vous faites tous vos choix en retournant un juste pièce – alors le nombre attendu de points marqués diminue exactement de moitié à chaque tour.

Mais les équipes ne sont pas égales, et vous ne faites pas votre choix en retournant des pièces. Intuitivement, alors, il semble comme ça fais Un système de montée en puissance surpondère peut-être l’importance des tours ultérieurs, et peut-être qu’un meilleur système implique des augmentations moins extrêmes de points par match d’un tour à l’autre. L’une des suggestions courantes les plus amusantes est une progression basée sur la séquence de Fibonacci, avec des jeux à chaque tour valant respectivement 2, 3, 5, 8, 13 et 21 points. Mon objectif dans cet article est de décrire un moyen d’évaluer et de comparer plus précisément ces systèmes de notation et d’autres.

Modèle de probabilité pour les matchs de tournoi

Premièrement, nous avons besoin d’un moyen de modéliser la probabilité de choisir correctement un jeu particulier. Un point de départ raisonnablement simple consiste à supposer que tous les matchs sont indépendants, la probabilité de chaque résultat ne dépendant que des graines des équipes. Plus précisément, soit P une matrice 16 × 16 avec des entrées

indiquant la probabilité que la graine i batte la graine j, où est une mesure de la «force» de la graine i (décroissante en i), et k est un facteur de mise à l’échelle qui détermine efficacement la plage de probabilités résultantes. Par exemple, si, alors chaque partie est un tirage au sort; à l’autre extrême, si, alors une 16e graine a une probabilité nulle de renversement de premier tour contre une première graine. Pour cette discussion, k sera choisi de sorte que

sur la base de l’observation que, en 124 matchs au cours des 31 dernières années du format de tournoi actuel, une 1ère tête de série n’a jusqu’à présent jamais perdu contre un 16e graine. Cette probabilité est la valeur attendue de la distribution bêta correspondante.

J’ai utilisé une version simple de ce modèle il y a un an pour estimer la probabilité de choisir une «fourchette parfaite», c’est-à-dire de choisir les 63 jeux correctement, en utilisant une fonction de force linéaire:

donc cela ne dépend que de la différence entre les graines. Même ce modèle très simple n’est pas trop mauvais, comme le montre la figure mise à jour suivante, avec le modèle de prédiction linéaire en rouge et les 31 dernières années de données historiques affichées en bleu, avec les intervalles de confiance à 95% correspondants en noir. Comme le suggèrent les intervalles de confiance souvent très larges, 31 ans ne représentent pas encore beaucoup de données; par exemple, il n’y a eu que 7 matchs entre les têtes de série différant de 10: le 1er contre le 11e est divisé 3-3, et une seule 2e tête de série l’emporte sur un 12e.

Probabilité de gagner en fonction de la différence de départ: estimation ponctuelle (bleu), intervalle de confiance à 95% (noir) et modèle de prédiction linéaire (rouge).

Comme d’habitude, il s’avère que ce n’était pas une nouvelle idée; Schwertman et. Al. (voir les références à la fin de cet article) a considéré ce même modèle en 1991, ainsi qu’une autre fonction de force non linéaire qui s’avère être un meilleur ajustement historique:

où est la fonction quantile de la distribution normale et correspond au nombre total d’équipes de basketball masculin de Division I. L’idée est que les « forces » de toutes les équipes sont normalement réparties, les 64 équipes du tournoi comprenant les équipes « les plus fortes » dans la queue supérieure de cette distribution. J’utiliserai cette fonction de force pour le reste de cette discussion.

Calcul des probabilités de choix corrects

Étant donné la matrice P de probabilités que nous choisissons, nous pouvons l’utiliser pour calculer la distribution résultante de la graine remportant un match particulier du tournoi. Si et sont des vecteurs de colonne à 16 éléments avec () indiquant la probabilité que l’équipe locale (visiteuse) dans un jeu particulier soit classée i, alors la distribution de la graine gagnante de ce jeu est donnée par

où est le produit Hadamard par élément.Au premier tour, chacun et est un vecteur de base. Notez que l’inclusion des deux termes dans la sommation n’est en réalité qu’une commodité de calcul, au moins dans une région, car pour une graine donnée, seule une des composantes correspondantes des deux termes sera non nulle.

Par en appliquant cette formule de manière itérative pour chaque match à chaque tour successif, nous pouvons éventuellement calculer la probabilité que chaque tête de série gagne chaque match du tournoi. Par exemple, le code Python suivant calcule la distribution du vainqueur de l’un des quatre championnats régionaux (parmi 16 équipes chacun):

Les probabilités prédites résultantes sont indiquées dans la figure suivante en rouge – à l’aide du fonction de force quantile normale ci-dessus – par rapport aux fréquences réelles en bleu.

Vainqueur du championnat régional: fréquence réelle (bleu) et probabilité prédite (rouge).

Systèmes de notation des brackets

Maintenant que nous avons un moyen de calculer la probabilité qu’une équipe en particulier gagne un match particulier, nous pouvons évaluer un bracket terminé en calculant le nombre attendu de choix corrects à chaque tour. Par exemple, supposons que notre support choisisse simplement le favori (c’est-à-dire la graine la plus élevée) pour gagner chaque partie. Ensuite, le nombre attendu de choix corrects sera:

  • 23,156 matchs sur 32 au premier tour,
  • 9,847 matchs sur 16 au deuxième tour,
  • 4,292 sur 8 matchs au troisième tour,
  • 1,792 sur 4 matchs dans les championnats régionaux du quatrième tour,
  • 0,540 sur 2 matchs dans le Final Four,
  • 0,156 du match de championnat final.

À ce stade, nous pouvons comparer différents systèmes de notation de brackets en comparant le nombre de points attendus à chaque tour en utilisant ces systèmes. Par exemple, le tableau suivant montre les points attendus par tour pour les deux systèmes mentionnés jusqu’à présent: le système de doublement (1, 2, 4, 8, 16, 32) et le système de Fibonacci (2, 3, 5, 8, 13 , 21), normalisé à 1 point par partie du premier tour.

Lequel de ces systèmes ou tout autre système est « meilleur » dépend du type de pool que vous voulez. Avec le système de doublage (ou même des progressions plus importantes ), vous pouvez avoir un pool de courses de chevaux «passionnant», avec des changements de tête et de multiples entrées ayant une chance de gagner tout au long des six tours. Avec le système Fibonacci (ou même des progressions plus graduelles), vous pouvez avoir un pool qui récompense la recherche et la prédiction précise des bouleversements du début du cycle… mais un tel pool peut être effectivement terminé bien avant le Final Four.

Annexe: Données historiques

Les matrices suivantes contiennent l’enregistrement de toutes les victoires et défaites, par tour et par match de tête de série, pour les 31 tournois dans le format actuel de 1985 à 2015. Premièrement, les 16 × suivants La matrice 16 indique le nombre de parties régionales – c’est-à-dire du premier au quatrième round – dans lesquelles la graine i bat la graine j. Notez que le tour dans lequel chaque partie a été jouée est également implicitement déterminé par le match de tête (par exemple, 1 contre 16 est dans le premier tour, etc.).

 0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

La matrice suivante, dans le même format, est pour les matchs du Final Four (cinquième tour):

 12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Et enfin pour les matchs de championnat:

Leave a Reply

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *