Johdanto
Vuoden 2015 NCAA: n miesten koripalloturnauksessa voitin toimistopoolimme (1) valitsemalla sitten voittamaton Kentucky häviää – vaikkakin aikaisemmin kuin heidän todellinen Final Four -tappionsa Wisconsinille – ja (2) Duke-pelaajan valitseminen voittaakseen mestaruuspelin. Se oli takimmainen voitto kannattimelleni. Siirtyminen 14. sijasta 7. sijalle 1. sijalle 63 viimeisen pelin kolmen viimeisen pelin aikana.
Mutta olisinko pitänyt voittaa? Allasmme käytti yleistä sulkujen pisteytysjärjestelmää:
- 1 piste jokaisesta oikeasta valinnasta 64 joukkueen ensimmäisellä kierroksella,
- 2 pistettä jokaisesta oikeasta valinnasta toinen joukko 32 joukkuetta,
- 4 pistettä jokaisesta oikeasta valinnasta 16 joukkueen kolmannella kierroksella,
- 8 pistettä jokaisesta oikeasta valinnasta kahdeksan joukkueen neljännessä kierroksessa,
- 16 pistettä jokaisesta oikeasta valinnasta kahdessa Final Four -pelissä,
- 32 pistettä mestarin valitsemisesta.
Tämä ”tuplaamisen” järjestelmä on useita kohtuullisia matemaattisia motivaatioita. Esimerkiksi jokainen pelikierros on potentiaalisesti saman pisteiden arvoinen (32). Lisäksi olettaen, että kaikki joukkueet ovat tasaisesti – tai vastaavasti, olettaen, että teet kaikki valintasi kääntämällä reilua kolikko – sitten odotettu pisteiden määrä pienenee tarkalleen puoleen jokaisella kierroksella.
Mutta joukkueet eivät ole tasa-arvoisia, etkä tee valintasi kääntämällä kolikoita. Intuitiivisesti näyttää siltä, että kuten tämä ubling-järjestelmä saattaa painottaa myöhempien kierrosten merkitystä liian paljon, ja ehkä parempi järjestelmä tarkoittaa vähemmän äärimmäisiä pisteiden nousuja per peli kerrokselta toiselle. Yksi hauskemmista yleisistä ehdotuksista on Fibonacci-sarjaan perustuva eteneminen, jossa jokaisella kierroksella pelataan 2, 3, 5, 8, 13 ja 21 pistettä. Tavoitteenani tässä viestissä on kuvata keino arvioida ja vertailla tarkemmin näitä ja muita haaroituspisteytysjärjestelmiä.
Turnauspelien todennäköisyysmalli
Ensinnäkin tarvitsemme tavan mallintaa todennäköisyys valita jokin tietty peli oikein. Kohtuullisen yksinkertainen lähtökohta on olettaa, että kaikki pelit ovat itsenäisiä, ja kunkin tuloksen todennäköisyys riippuu vain joukkueiden siemenistä. Tarkemmin sanottuna olkoon P 16 × 16 -matriisi, jonka merkinnät
osoittavat todennäköisyyden, että siemen i voittaa siemenen j, missä on jokin siemenen i ”voiman” mitta (laskee i: ssä) ja k skaalauskerroin, joka määrittää tehokkaasti tuloksena olevien todennäköisyyksien alueen. Esimerkiksi, jos, niin jokainen peli on kolikon kääntö; toisessa ääripäässä, jos, niin 16. siemenellä on nolla todennäköisyyttä ensimmäisen kierroksen häiritsemiseen ensimmäistä siementä vastaan. Tätä keskustelua varten k valitaan siten, että
sen havainnon perusteella, että nykyisen turnausmuodon viimeisen 31 vuoden aikana 124 ottelussa 1. siemen ei ole tähän mennessä koskaan hävinnyt 16. sijalle Tämä todennäköisyys on vastaavan beetajakauman odotettu arvo.
Käytin vuosi sitten tämän mallin yksinkertaista versiota arvioidakseni todennäköisyyden valita ”täydellinen sulu” eli valita kaikki 63 pelit oikein, käyttäen lineaarista vahvuusfunktiota:
joten se riippuu vain siementen välisestä erosta. Jopa tämä hyvin yksinkertainen malli ei ole kovin huono, kuten seuraavassa päivitetyssä kuvassa näkyy, lineaarinen ennustusmalli punaisella ja viimeisten 31 vuoden historialliset tiedot sinisellä, vastaavat 95%: n luottamusvälit mustalla. Kuten usein hyvin suuret luottamusvälit viittaavat, 31 vuotta ei ole vielä paljon tietoa; Esimerkiksi siementen välillä on ollut vain 7 ottelua, jotka eroavat toisistaan 10: 1. ja 11. ovat jaetut 3-3, ja yksi 2. siemen voitti yli 12. sijan.
Todennäköisyys voittaa siemeneron funktiona: piste-estimaatti (sininen), 95%: n luottamusväli (musta) ja lineaarinen ennustusmalli (punainen).
Kuten tavallista, käy ilmi, että tämä ei ollut uusi idea; Schwertman et. al. (katso viitteet tämän viestin lopussa) käsitteli samaa mallia jo vuonna 1991, samoin kuin toista epälineaarista lujuusfunktiota, joka osoittautuu paremmaksi historialliseksi sopivaksi:
missä on normaalijakauma, ja se on divisioonan I miesten koripallojoukkueiden kokonaismäärä. Ajatuksena on, että kaikkien joukkueiden ”vahvuudet” jaetaan normaalisti siten, että turnauksen 64 joukkuetta käsittää ”vahvimmat” joukkueet tämän jakauman yläosassa. Käytän tätä vahvuusfunktiota loppuosan keskustelusta.
Oikean poiminnan todennäköisyyksien laskeminen
Kun otetaan huomioon minkä tahansa valitsemamme todennäköisyyksien matriisi P, voimme käyttää sitä laskemaan tuloksena olevan jakauman siemenestä, joka voittaa minkä tahansa tietyn pelin turnauksessa. Jos ja ovat 16-elementtisiä sarakevektoreita, joiden () osoittaa todennäköisyyden, että tietyn pelin koti- (vieraileva) joukkue on siemenillä i, niin kyseisen pelin voittaneen siemenen jakauma saadaan
missä on elementtiviiva Hadamard-tuote.Ensimmäisellä kierroksella kukin ja on perusvektori. Huomaa, että molempien termien sisällyttäminen yhteenvetoon on oikeastaan vain laskennallinen mukavuus, ainakin alueen sisällä, koska tietylle siemenelle vain toinen termeistä ”vastaava komponentti” ei ole nolla.
soveltamalla tätä kaavaa iteratiivisesti jokaiselle pelille jokaisella peräkkäisellä kierroksella, voimme lopulta laskea todennäköisyyden, että kukin siemen voittaa jokaisen pelin turnauksessa. Esimerkiksi seuraava Python-koodi laskee minkä tahansa neljän alueellisen mestaruuden voittajan jakauman (16 joukkueen kesken):
Tuloksena olevat ennustetut todennäköisyydet näkyvät seuraavassa kuvassa punaisella – käyttämällä normaali kvantiilin voimakkuustoiminto yllä – verrattuna sinisiin todellisiin taajuuksiin.
Aluemestaruuden voittaja: todellinen taajuus (sininen) ja ennustettu todennäköisyys (punainen).
Sulujen pisteytysjärjestelmät
Nyt kun meillä on keinot laskea minkä tahansa tiimin voittotodennäköisyys tietyssä pelissä, voimme arvioida valmistuneen haarukan laskemalla odotetun määrän oikeita valintoja jokaisella kierroksella. Oletetaan esimerkiksi, että kannattimemme yksinkertaisesti valitsee suosikin (eli korkeamman siemenen) voittaakseen jokaisen pelin. Tällöin odotettavissa olevien oikeiden valintojen lukumäärä on:
- 23.156 / 32 ottelua ensimmäisellä kierroksella,
- 9.847 / 16 pelillä toisella kierroksella,
- 4,292 / 8 ottelua kolmannella kierroksella,
- 1,792 / 4 ottelua neljännen kierroksen alueellisilla mestaruuskilpailuilla,
- 0,540 / 2 peliä viimeisellä neljänneksellä
- 0,156 viimeisestä mestaruuskilpailusta.
Tässä vaiheessa voimme verrata erilaisia suluissa olevia pisteytysjärjestelmiä vertaamalla kullakin kierroksella odotettua pisteiden määrää käyttämällä näitä järjestelmiä. Esimerkiksi seuraavassa taulukossa esitetään odotetut pisteet kierrosta kohti kahdelle toistaiseksi mainitulle järjestelmälle: kaksinkertaistamisjärjestelmälle (1, 2, 4, 8, 16, 32) ja Fibonacci-järjestelmälle (2, 3, 5, 8, 13 , 21), normalisoitu yhdeksi pisteeksi ensimmäisen kierroksen peliä kohden.
Mikä näistä tai mistä tahansa muusta järjestelmästä on ”paras”, riippuu millaista poolia haluat. Tuplausjärjestelmällä (tai jopa suuremmilla etenemisillä) ), sinulla voi olla ”jännittävä” hevoskilpailu-pooli, jossa lyijymuutokset ja useita ilmoituksia on mahdollisuus voittaa kaikkien kuuden kierroksen ajan. Fibonacci-järjestelmän (tai vielä enemmän asteittaisen etenemisen) avulla sinulla voi olla uima-allas, joka palkitsee tutkimuksen ja tarkan ennusteen varhaisen vaiheen häiriöistä … mutta tällainen pooli voi olla tehokkaasti ohi jo ennen viimeistä neljää.
Liite: Historialliset tiedot
Seuraavat matriisit sisältävät kaikkien voittojen ja tappioiden ennätyksen kierroksittain ja siemenotteluittain 31 turnauksessa nykyisessä muodossa vuosina 1985-2015. Ensinnäkin seuraavat 16 × 16-matriisi ilmaisee alueellisten pelien lukumäärän eli ensimmäisellä neljännellä kierroksella – joissa siemen i voitti siemenen j. Huomaa, että kierroksen, jolla kukin peli pelattiin, määrää epäsuorasti myös siemenottelu (esim. 1 vs. 16 on ensimmäisellä kierroksella jne.).
0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Seuraava matriisi, samassa muodossa, on neljännen (viidennen kierroksen) neljännessä ottelussa:
12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Ja lopuksi mestaruuskilpailuihin: