Introduzione
Durante il torneo di basket maschile NCAA 2015, ho vinto il nostro gruppo di uffici scegliendo (1) imbattuto Il Kentucky perde – anche se prima della sconfitta nelle Final Four contro il Wisconsin – e (2) sceglie Duke per la vittoria del campionato. È stata una vittoria rimbalzante per il mio girone, passando dal 14 ° al 7 ° al 1 ° posto … nell’arco delle ultime tre partite del torneo da 63 partite.
Ma avrei dovuto vincere? Il nostro pool ha utilizzato il comune sistema di assegnazione dei punteggi a parentesi:
- 1 punto per ogni scelta corretta nel primo turno di 64 squadre,
- 2 punti per ogni scelta corretta nel secondo turno di 32 squadre,
- 4 punti per ogni scelta corretta nel terzo turno di 16 squadre,
- 8 punti per ogni scelta corretta nel quarto turno di 8 squadre,
- 16 punti per ogni scelta corretta nelle due partite delle Final Four,
- 32 punti per la scelta corretta del campione.
Questo sistema di “raddoppio” ha diverse ragionevoli motivazioni matematiche. Ad esempio, ogni round di giochi vale potenzialmente lo stesso numero di punti (32). Inoltre, supponendo che tutte le squadre siano alla pari o in modo equivalente, assumendo che tu faccia tutte le tue scelte girando un moneta– quindi il numero previsto di punti segnati diminuisce esattamente della metà a ogni round.
Ma le squadre non sono ugualmente abbinate e non fai le tue scelte lanciando le monete. Intuitivamente, quindi, sembra in questo modo Il sistema ubling potrebbe sopravvalutare l’importanza dei round successivi, e forse un sistema migliore comporta aumenti meno estremi dei punti per partita da un round all’altro. Uno dei suggerimenti comuni più divertenti è una progressione basata sulla sequenza di Fibonacci, con i giochi in ogni round che valgono rispettivamente 2, 3, 5, 8, 13 e 21 punti. Il mio obiettivo in questo post è descrivere un mezzo per valutare e confrontare in modo più accurato questi e altri sistemi di punteggio per parentesi.
Modello di probabilità per i giochi da torneo
Innanzitutto, abbiamo bisogno di un modo per modellare la probabilità di scegliere correttamente un particolare gioco. Un punto di partenza ragionevolmente semplice è presumere che tutte le partite siano indipendenti, con la probabilità di ogni risultato che dipende solo dai semi delle squadre. Più precisamente, sia P una matrice 16 × 16 con voci
che indicano la probabilità che il seme i batte il seme j, dove è una certa misura della “forza” del seme i (decrescente in i), e k è un fattore di scala che determina effettivamente la gamma di probabilità risultanti. Ad esempio, se, allora ogni partita è un lancio di moneta; all’estremo opposto, se, allora un 16 ° seme ha probabilità zero di un ribaltamento al primo turno contro un primo seme. Per questa discussione, verrà scelto k in modo che
in base all’osservazione che, in 124 match-up negli ultimi 31 anni del formato attuale del torneo, un primo seme finora non ha mai perso con un sedicesimo seme. Questa probabilità è il valore atteso della distribuzione beta corrispondente.
Ho utilizzato una versione semplice di questo modello un anno fa per stimare la probabilità di scegliere una “parentesi perfetta”, ovvero selezionare tutte le 63 giochi correttamente, utilizzando una funzione di forza lineare:
in modo che dipenda solo dalla differenza tra i semi. Anche questo modello molto semplice non è male, come mostrato nella seguente figura aggiornata, con il modello di previsione lineare in rosso e gli ultimi 31 anni di dati storici mostrati in blu, con corrispondenti intervalli di confidenza del 95% in nero. Come suggeriscono gli intervalli di confidenza spesso molto ampi, 31 anni non sono ancora molti dati; ad esempio, ci sono stati solo 7 match-up tra le teste di serie con una differenza di 10: 1 ° contro 11 ° sono divisi 3-3 e un singolo 2 ° seme ha vinto su un 12 °.
Probabilità di vittoria in funzione della differenza seed: stima puntuale (blu), intervallo di confidenza al 95% (nero) e modello di previsione lineare (rosso).
Come al solito, si scopre che questo non era una nuova idea; Schwertman et. al. (vedi Riferimenti alla fine di questo post) ha considerato questo stesso modello nel 1991, così come un’altra funzione di forza non lineare che risulta essere un adattamento storico migliore:
dov’è la funzione quantile di la distribuzione normale, ed è il numero totale di squadre di basket maschile di divisione I. L’idea è che i “punti di forza” di tutte le squadre siano normalmente distribuiti, con le 64 squadre del torneo che comprendono le squadre “più forti” nella coda superiore di questa distribuzione. Userò questa funzione di forza per il resto di questa discussione.
Calcolo delle probabilità di scelte corrette
Data qualunque matrice P di probabilità scegliamo, possiamo usarla per calcolare la distribuzione risultante del seme vincendo una partita in particolare nel torneo. Se e sono vettori colonna a 16 elementi con () che indicano la probabilità che la squadra di casa (ospite) in una particolare partita sia testa di serie i, la distribuzione del seme vincente per quella partita è data da
dove si trova il prodotto Hadamard dal punto di vista degli elementi.Nel primo round, ciascuno e è un vettore di base. Si noti che includere entrambi i termini nella sommatoria è in realtà solo una comodità computazionale, almeno all’interno di una regione, poiché per un dato seme, solo uno dei componenti corrispondenti dei due termini sarà diverso da zero.
Per applicando questa formula in modo iterativo per ogni partita in ogni round successivo, possiamo eventualmente calcolare la probabilità che ogni seme vinca ogni partita del torneo. Ad esempio, il seguente codice Python calcola la distribuzione del vincitore di uno qualsiasi dei quattro campionati regionali (tra 16 squadre ciascuno):
Le probabilità previste risultanti sono mostrate nella figura seguente in rosso – utilizzando il normale funzione di intensità quantile sopra – rispetto alle frequenze effettive in blu.
Vincitore del campionato regionale: frequenza effettiva (blu) e probabilità prevista (rosso).
Sistemi di punteggio delle parentesi
Ora che abbiamo un mezzo per calcolare la probabilità che una determinata squadra vinca una determinata partita, possiamo valutare una parentesi completa calcolando il numero previsto di scelte corrette in ogni round. Ad esempio, supponiamo che la nostra staffa scelga semplicemente il preferito (cioè il seme più alto) per vincere ogni partita. Quindi il numero previsto di scelte corrette sarà:
- 23.156 di 32 partite nel primo turno,
- 9.847 di 16 partite nel secondo turno,
- 4,292 di 8 partite nel terzo turno,
- 1,792 di 4 partite nel quarto turno dei campionati regionali,
- 0,540 di 2 partite nelle Final Four,
- 0,156 della partita finale del campionato.
A questo punto, possiamo confrontare i vari sistemi di punteggio dei gironi confrontando il numero previsto di punti segnati in ogni round utilizzando questi sistemi. Ad esempio, la tabella seguente mostra i punti attesi per round per i due sistemi citati finora: il sistema del raddoppio (1, 2, 4, 8, 16, 32) e il sistema Fibonacci (2, 3, 5, 8, 13 , 21), normalizzato a 1 punto per partita al primo turno.
Quale di questi o altri sistemi è “il migliore” dipende dal tipo di pool che si desidera. Con il sistema del raddoppio (o anche progressioni maggiori ), puoi avere un “eccitante” gruppo di corse di cavalli, con cambi di testa e più voci che hanno la possibilità di vincere in tutti e sei i round. Con il sistema Fibonacci (o anche progressioni più graduali), puoi avere un pool che premia la ricerca e la previsione accurata degli sconvolgimenti iniziali … ma un tale pool potrebbe essere effettivamente finito ben prima delle Final Four.
Appendice: dati storici
Le seguenti matrici contengono il record di tutte le vittorie e le sconfitte, per round e testa di serie, per i 31 tornei nel formato corrente dal 1985 al 2015. Innanzitutto, le seguenti 16 × La matrice 16 indica il numero di partite regionali, ovvero dal primo al quarto round, in cui il seme i ha battuto il seme j. Nota che il round in cui è stata giocata ogni partita è anche implicitamente determinato dal matchup seme (ad esempio, 1 contro 16 è nel primo round, ecc.).
0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
La seguente matrice, nello stesso formato, è per le partite delle Final Four (quinto round):
12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
E infine per le partite di campionato: