Introducere
În timpul turneului de baschet masculin NCAA din 2015, am câștigat grupul nostru de birouri prin (1) alegerea atunci neînvinsă Kentucky să piardă – deși mai devreme decât pierderea efectivă a Final Four în Wisconsin – și (2) alegându-l pe Duke să câștige jocul de campionat. A fost o victorie venită din spate pentru parantezul meu, trecând de la locul 14 la locul 7 la locul 1 … pe parcursul ultimelor trei jocuri din turneul de 63 de jocuri.
Dar ar fi trebuit să câștig? Grupul nostru a folosit sistemul comun de notare a parantezelor de atribuire:
- 1 punct pentru fiecare alegere corectă în prima rundă de 64 de echipe,
- 2 puncte pentru fiecare alegere corectă în a doua rundă de 32 de echipe,
- 4 puncte pentru fiecare alegere corectă în a treia rundă de 16 echipe,
- 8 puncte pentru fiecare alegere corectă în a patra rundă de 8 echipe,
- 16 puncte pentru fiecare alegere corectă în cele două jocuri din Final Four,
- 32 de puncte pentru alegerea corectă a campionului.
Acest sistem de „dublare” are mai multe motivații matematice rezonabile. De exemplu, fiecare rundă de jocuri valorează potențial același număr de puncte (32). De asemenea, presupunând că toate echipele sunt potrivite în mod egal – sau echivalent, presupunând că îți alegi toate opțiunile prin aruncarea unui echitabil monedă – atunci numărul așteptat de puncte obținute scade cu exact jumătate la fiecare rundă.
Dar echipele nu sunt egalate în mod egal și nu îți alegi rasturnând monedele. Atunci, intuitiv, se pare asa fac Sistemul de ublare ar putea să suprapondereze la importanța rundelor ulterioare și poate că un sistem mai bun implică creșteri mai puțin extreme ale punctelor pe joc de la o rundă la alta. Una dintre cele mai amuzante sugestii comune este o progresie bazată pe secvența Fibonacci, cu jocuri în fiecare rundă în valoare de 2, 3, 5, 8, 13 și, respectiv, 21 de puncte. Scopul meu din această postare este să descriu un mijloc de evaluare și comparare mai precisă a acestor sisteme și a altor sisteme de notare în paranteză.
Model de probabilitate pentru jocurile de turneu
În primul rând, avem nevoie de o modalitate de modelare probabilitatea de a alege corect un anumit joc. Un punct de plecare destul de simplu este să presupunem că toate jocurile sunt independente, probabilitatea fiecărui rezultat depinzând doar de semințele echipelor. Mai exact, să fie P o matrice 16 × 16 cu intrări
care indică probabilitatea ca sămânța i să bată sămânța j, unde este o anumită măsură a „puterii” seminței i (care scade în i), iar k este un factor de scalare care determină în mod eficient intervalul probabilităților rezultate. De exemplu, dacă, atunci fiecare joc este o monedă; în cealaltă extremă, dacă, atunci o șaisprezecea sămânță are zero probabilitate de o supărare în primul tur față de o primă sămânță. Pentru această discuție, k va fi ales astfel încât
pe baza observației că, în 124 de meciuri din ultimii 31 de ani ai formatului actual al turneului, o primă serie nu a pierdut niciodată până la un 16 Această probabilitate este valoarea așteptată a distribuției beta corespunzătoare.
Am folosit o versiune simplă a acestui model acum un an pentru a estima probabilitatea de a alege o „paranteză perfectă”, adică alegerea tuturor 63 jocuri corect, folosind o funcție de rezistență liniară:
astfel încât să depindă doar de diferența dintre semințe. Chiar și acest model foarte simplu nu este prea rău, după cum se arată în următoarea figură actualizată, cu modelul de predicție liniară în roșu, iar ultimii 31 de ani de date istorice afișate în albastru, cu intervale de încredere corespunzătoare de 95% în negru. Așa cum sugerează intervalele de încredere adesea foarte largi, 31 de ani nu sunt încă multe date; de exemplu, au existat doar 7 meciuri între semințe care diferă cu 10: 1 vs 11 sunt împărțite 3-3, iar o singură a 2-a sămânță a câștigat peste 12.
Probabilitatea de a câștiga în funcție de diferența de semințe: estimarea punctului (albastru), intervalul de încredere de 95% (negru) și modelul de predicție liniară (roșu).
Ca de obicei, se dovedește că acest lucru nu a fost o idee nouă; Schwertman et. al. (vezi Referințe la sfârșitul acestui post) a considerat același model în 1991, precum și o altă funcție de forță neliniară care se dovedește a fi o potrivire istorică mai bună:
unde este funcția cuantilă a distribuția normală și este numărul total al echipelor de baschet masculin din Divizia I. Ideea este că „punctele forte” ale tuturor echipelor sunt distribuite în mod normal, cele 64 de echipe din turneu cuprinzând cele mai „puternice” echipe din coada superioară a acestei distribuții. Voi folosi această funcție de forță pentru restul acestei discuții.
Calcularea probabilităților de alegeri corecte
Având în vedere orice matrice P de probabilități alegem, o putem folosi pentru a calcula distribuția rezultată a seminției câștigând un anumit joc din turneu. Dacă și sunt vectori de coloane cu 16 elemente cu () care indică probabilitatea ca echipa de acasă (vizitator) într-un anumit joc să fie însămânțată i, atunci distribuția seminției care câștigă acel joc este dată de
unde este produsul Hadamard în funcție de elemente.În prima rundă, fiecare și este un vector de bază. Rețineți că includerea ambilor termeni în însumare este într-adevăr doar o comoditate de calcul, cel puțin într-o regiune, deoarece pentru o sămânță dată, doar unul dintre componentele corespunzătoare celor doi termeni va fi diferit de zero.
aplicând această formulă iterativ pentru fiecare joc din fiecare rundă succesivă, putem calcula în cele din urmă probabilitatea ca fiecare sămânță să câștige fiecare joc în turneu. De exemplu, următorul cod Python calculează distribuția câștigătorului oricăruia dintre cele patru campionate regionale (între câte 16 echipe):
Probabilitățile prezise rezultate sunt prezentate în următoarea figură în roșu – folosind funcția normală a rezistenței cuantilice de mai sus – comparată cu frecvențele reale în albastru.
Câștigătorul campionatului regional: frecvența reală (albastru) și probabilitatea prezisă (roșu).
Sisteme de notare a parantezelor
Acum că avem un mijloc de a calcula probabilitatea ca o anumită echipă să câștige un anumit joc, putem evalua o paranteză completată calculând numărul așteptat de alegeri corecte în fiecare rundă. De exemplu, să presupunem că parantezul nostru alege pur și simplu favoritul (adică semința superioară) pentru a câștiga fiecare joc. Apoi, numărul preconizat de alegeri corecte va fi:
- 23.156 din 32 de jocuri în prima rundă,
- 9.847 din 16 jocuri în a doua rundă,
- 4.292 din 8 jocuri în runda a treia,
- 1.792 din 4 jocuri în campionatele regionale din runda a patra,
- 0,540 din 2 jocuri în Final Four,
- 0,156 din jocul final de campionat.
În acest moment, putem compara diverse sisteme de notare în paranteze comparând numărul așteptat de puncte obținute în fiecare rundă folosind aceste sisteme. De exemplu, următorul tabel prezintă punctele așteptate pe rundă pentru cele două sisteme menționate până acum: sistemul de dublare (1, 2, 4, 8, 16, 32) și sistemul Fibonacci (2, 3, 5, 8, 13 , 21), normalizat la 1 punct pentru fiecare joc din prima rundă.
Care dintre aceste sisteme sau orice alt sistem este „cel mai bun” depinde de ce tip de grup doriți. Cu sistemul de dublare (sau chiar cu progresii mai mari) ), puteți avea o piscină „interesantă” de curse de cai, cu schimbări de plumb și mai multe intrări având șansa de a câștiga pe parcursul celor șase runde. Cu sistemul Fibonacci (sau chiar cu progresii mai treptate), puteți avea un grup care recompensează cercetarea și predicția exactă a supărărilor de la începutul rundei … dar un astfel de grup poate fi efectiv mult înainte de Final Four.
Anexă: Date istorice
Următoarele matrici conțin înregistrarea tuturor victoriilor și pierderilor, în funcție de meciuri rotunde și de semințe, pentru cele 31 de turnee în formatul curent din 1985 până în 2015. În primul rând, următoarele 16 × Matricea 16 indică numărul de jocuri regionale – adică în prima până la a patra rundă – în care sămânța i-a învins sămânța j. Rețineți că runda în care s-a jucat fiecare joc este, de asemenea, implicit determinată de meciul de serie (de exemplu, 1 vs. 16 este în prima rundă etc.).
0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Următoarea matrice, în același format, este pentru (a cincea rundă) Final Four jocuri:
12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Și în cele din urmă pentru jocuri de campionat: