Úvod
Během basketbalového turnaje mužů NCAA v roce 2015 jsem vyhrál náš kancelářský bazén (1) výběrem tehdy neporažených Kentucky prohrát – i když dříve než jejich skutečná ztráta Final Four ve Wisconsinu – a (2) vybrat Dukeho, aby vyhrál mistrovskou hru. Pro moji skupinu to bylo vítězství zezadu, pohybující se ze 14. místa na 7. až 1. … v rozpětí posledních tří her v turnaji o 63 hrách.
Ale měl jsem vyhrát? Náš fond používal společný systém bodování závorek přiřazování:
- 1 bod za každý správný výběr v prvním kole 64 týmů,
- 2 body za každý správný výběr v druhé kolo 32 týmů,
- 4 body za každý správný výběr ve třetím kole 16 týmů,
- 8 bodů za každý správný výběr ve čtvrtém kole 8 týmů,
- 16 bodů za každý správný výběr ve dvou hrách Final Four,
- 32 bodů za správný výběr šampiona.
Tento systém „zdvojnásobení“ má několik rozumných matematických motivací. Například každé kolo her má potenciálně stejný počet bodů (32). Rovněž za předpokladu, že jsou všechny týmy vyrovnány rovnoměrně – nebo rovnocenně, za předpokladu, že všechny vaše tipy vyberete flipem coin – pak se očekávaný počet získaných bodů s každým kolem snižuje přesně o polovinu.
Ale týmy nejsou vyrovnané rovnoměrně a nevyberete si otočením coinů. Zdá se tedy, že intuitivně jako to dělají Ublingový systém může nadhodnocovat důležitost pozdějších kol a možná lepší systém zahrnuje méně extrémní zvýšení bodů na hru z jednoho kola na druhé. Jedním z nejzábavnějších společných návrhů je postup založený na Fibonacciho posloupnosti s hrami v každém kole v hodnotě 2, 3, 5, 8, 13 a 21 bodů. Mým cílem v tomto příspěvku je popsat způsob přesnějšího vyhodnocení a porovnání těchto a dalších systémů bodování závorek.
Pravděpodobnostní model pro turnajové hry
Nejprve potřebujeme způsob modelování pravděpodobnost správného výběru jakékoli konkrétní hry. Rozumně jednoduchým výchozím bodem je předpokládat, že všechny hry jsou nezávislé, přičemž pravděpodobnost každého výsledku závisí pouze na semenech týmů. Přesněji, nechť P je matice 16 × 16 se záznamy
označujícími pravděpodobnost, že osivo i porazí osivo j, kde je určitá míra „síly“ osiva i (klesá v i), a k je faktor měřítka, který efektivně určuje rozsah výsledných pravděpodobností. Například pokud je každá hra otočením mince, v opačném případě platí, že pokud má 16. semeno nulovou pravděpodobnost rozrušení prvního kola proti 1. semenu. Pro tuto diskusi bude zvoleno k tak, že
na základě pozorování, že ve 124 zápasech za posledních 31 let aktuálního formátu turnaje 1. semeno dosud nikdy neprohrálo s 16. seed. Tato pravděpodobnost je očekávanou hodnotou odpovídající distribuce beta.
Před rokem jsem použil jednoduchou verzi tohoto modelu k odhadu pravděpodobnosti výběru „dokonalého závorky“, tedy výběru všech 63 hry správně, pomocí funkce lineární síly:
takže to záleží pouze na rozdílu mezi semeny. Ani tento velmi jednoduchý model není příliš špatný, jak ukazuje následující aktualizovaný obrázek, přičemž lineární predikční model je červený a poslední 31 let historických dat je zobrazeno modře a odpovídající 95% intervaly spolehlivosti jsou černé. Jak často naznačují velmi široké intervaly spolehlivosti, 31 let stále není mnoho údajů; například došlo pouze k 7 vzájemným zápasům mezi semeny lišícími se o 10: 1. vs. 11. jsou rozděleny 3: 3 a jeden 2. semeno zvítězilo nad 12.
Pravděpodobnost výhry jako funkce rozdílu semen: bodový odhad (modrý), 95% interval spolehlivosti (černý) a lineární predikční model (červený).
Jako obvykle se ukazuje, že to nebylo nový nápad; Schwertman et. al. (viz Odkazy na konci tohoto příspěvku) považoval tentýž model již v roce 1991, stejně jako další nelineární pevnostní funkci, která se ukazuje jako historicky lepší:
kde je kvantilní funkce normální rozdělení, a je celkový počet mužských basketbalových týmů divize I. Myšlenka je, že „silné stránky“ všech týmů jsou obvykle distribuovány, přičemž 64 týmů v turnaji zahrnuje „nejsilnější“ týmy v horní části této distribuce. Tuto funkci síly použiji pro zbytek této diskuse.
Výpočet pravděpodobností správných tipů
Vzhledem k tomu, jakou matici P pravděpodobností zvolíme, můžeme ji použít k výpočtu výsledné distribuce semene vyhrávající jakoukoli konkrétní hru v turnaji. Pokud a jsou 16prvkové vektory sloupců s () označujícími pravděpodobnost, že domácí (hostující) tým v konkrétní hře je nasazen i, pak je distribuce semena vyhrávajícího danou hru dána
kde je elementární produkt Hadamard.V prvním kole je každé a základním vektorem. Všimněte si, že zahrnutí obou termínů do součtu je ve skutečnosti jen výpočetní výhoda, přinejmenším v rámci oblasti, protože pro dané semeno bude nenulová pouze jedna ze dvou komponent odpovídajících termínům.
uplatněním tohoto vzorce iterativně pro každou hru v každém následném kole můžeme nakonec vypočítat pravděpodobnost, že každé semeno vyhraje každou hru v turnaji. Například následující kód Pythonu spočítá rozdělení vítěze kteréhokoli ze čtyř regionálních šampionátů (každý mezi 16 týmy):
Výsledné předpokládané pravděpodobnosti jsou zobrazeny na následujícím obrázku červeně – pomocí normální funkce síly kvantilu výše – ve srovnání se skutečnými frekvencemi modře.
Vítěz regionálního šampionátu: skutečná frekvence (modrá) a předpokládaná pravděpodobnost (červená).
Systémy bodování závorek
Nyní, když máme prostředky pro výpočet pravděpodobnosti výhry kteréhokoli konkrétního týmu v konkrétní hře, můžeme vyhodnotit dokončenou závorku výpočtem očekávaného počtu správných tipů v každém kole. Předpokládejme například, že náš držák jednoduše vybere oblíbenou položku (tj. Vyšší semeno), aby vyhrál každou hru. Očekávaný počet správných tipů bude:
- 23,156 ze 32 her v prvním kole,
- 9,847 ze 16 her v druhém kole,
- 4,292 z 8 her ve třetím kole,
- 1,792 ze 4 her ve čtvrtém kole regionálních šampionátů,
- 0,540 ze 2 her ve Final Four,
- 0,156 závěrečné hry mistrovství.
V tomto okamžiku můžeme porovnat různé systémy bodování závorek porovnáním očekávaného počtu bodů získaných v každém kole pomocí těchto systémů. Například následující tabulka ukazuje očekávané body za kolo pro dva dosud zmíněné systémy: zdvojnásobovací systém (1, 2, 4, 8, 16, 32) a Fibonacciho systém (2, 3, 5, 8, 13 , 21), normalizováno na 1 bod za hru prvního kola.
Který z těchto nebo jiných systémů je „nejlepší“, záleží na tom, jaký druh bazénu chcete. Se zdvojnásobujícím se systémem (nebo ještě větším pokrokem) ), můžete mít „vzrušující“ bazén s dostihovými dostihy, se změnami olova a několika přihláškami, které mají šanci na výhru ve všech šesti kolech. Se systémem Fibonacci (nebo dokonce s postupnějšími pokroky) můžete mít fond, který odměňuje výzkum a přesnou predikci rozrušení v raném kole … ale takový fond může být efektivně v dostatečném předstihu před Final Four.
Příloha: Historická data
Následující matice obsahují záznamy o všech výhrách a prohrách u 31 turnajů v aktuálním formátu od roku 1985 do roku 2015, a to v souboji a semifinále. Nejprve následujících 16 × Matice 16 udává počet regionálních her – tj. V prvním až čtvrtém kole – ve kterých semeno porazilo semeno j. Všimněte si, že kolo, ve kterém se hrála každá hra, je také implicitně určeno počátečním zápasem (např. 1 proti 16 je v prvním kole atd.).
0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Následující matice ve stejném formátu je určena pro (páté kolo) her Final Four:
12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
A konečně pro mistrovské hry: