NCAA-braketsystemer

Innledning

I løpet av NCAAs basketballturnering for menn i 2015 vant jeg kontorpoolen vår ved å (1) plukke da ubeseiret Kentucky å tape – men tidligere enn deres faktiske Final Four-tap mot Wisconsin – og (2) plukke Duke for å vinne mesterskapet. Det var en come-from-behind-seier for braketten min, og flyttet fra 14. plass til 7. til 1.… i løpet av de siste tre kampene i 63-kampsturneringen.

Men skulle jeg ha vunnet? Bassenget vårt brukte det vanlige braketscore-systemet for å tildele:

  • 1 poeng for hvert riktig valg i første runde på 64 lag,
  • 2 poeng for hver riktig valg i andre runde med 32 lag,
  • 4 poeng for hvert riktig valg i tredje runde med 16 lag,
  • 8 poeng for hvert riktig valg i fjerde runde med 8 lag,
  • 16 poeng for hvert riktig valg i de to siste fire kampene,
  • 32 poeng for riktig valg av mesteren.

Dette «doble» systemet har flere rimelige matematiske motivasjoner. For eksempel er hver runde med spill potensielt verdt like mange poeng (32). Forutsatt at alle lagene er jevnt samsvarende – eller tilsvarende, forutsatt at du tar alle valgene dine ved å snu en rettferdig mynt – så reduseres det forventede antall poeng som er oppnådd med nøyaktig halvparten for hver runde.

Men lag er ikke jevnt samsvarende, og du tar ikke dine valg ved å vende mynter. som dette gjør ubling-systemet kan overveie viktigheten av senere runder, og kanskje innebærer et bedre system mindre ekstreme økninger i poeng per kamp fra en runde til den neste. Et av de mer morsomme vanlige forslagene er en progresjon basert på Fibonacci-sekvensen, med spill i hver runde verdt henholdsvis 2, 3, 5, 8, 13 og 21 poeng. Målet mitt i dette innlegget er å beskrive et middel for mer nøyaktig å evaluere og sammenligne disse og andre braketsystemer.

Sannsynlighetsmodell for turneringsspill

Først trenger vi en måte å modellere sannsynligheten for å velge et bestemt spill riktig. Et rimelig enkelt utgangspunkt er å anta at alle spill er uavhengige, med hvert utfallets sannsynlighet bare avhengig av lagets frø. Mer presist, la P være en 16 × 16 matrise med oppføringer

som indikerer sannsynligheten for at frø i slår frø j, hvor er noe mål på «styrke» av frø i (avtagende i i), og k er en skaleringsfaktor som effektivt bestemmer rekkevidden av resulterende sannsynligheter. For eksempel hvis hvert spill er en myntesnor; på den andre ytterligheten, hvis, så har et 16. frø null sannsynlighet for en første runde opprørt mot et første frø. For denne diskusjonen vil k bli valgt slik at,

, basert på observasjonen at, i 124 match-ups de siste 31 årene av det gjeldende turneringsformatet, har et første frø så langt aldri tapt til en 16. Denne sannsynligheten er den forventede verdien av den tilsvarende beta-distribusjonen.

Jeg brukte en enkel versjon av denne modellen for et år siden for å estimere sannsynligheten for å velge en «perfekt brakett», det vil si å velge alle 63 spill riktig, ved hjelp av en lineær styrkefunksjon:

slik at det bare avhenger av forskjellen mellom frø. Selv denne veldig enkle modellen er ikke så ille, som vist i den følgende oppdaterte figuren, med den lineære prediksjonsmodellen i rødt, og de siste 31 årene med historiske data vist i blått, med tilsvarende 95% konfidensintervaller i svart. Som de ofte veldig brede tillitsintervallene tilsier, er 31 år fortsatt ikke mye data; for eksempel har det bare vært 7 match-ups mellom frø som varierer med 10: 1. mot 11. er delt 3-3, og et enkelt 2. frø vant over en 12..

Sannsynligheten for å vinne som en funksjon av frøforskjell: punktestimat (blå), 95% konfidensintervall (svart) og lineær prediksjonsmodell (rød).

Som vanlig viser det seg at dette ikke var en ny idé; Schwertman et. al. (se Referanser på slutten av dette innlegget) vurderte den samme modellen tilbake i 1991, samt en annen ikke-lineær styrkefunksjon som viser seg å være en bedre historisk passform:

hvor er kvantilfunksjonen til normalfordelingen, og er det totale antallet basketballklubber i divisjon I. Tanken er at «styrken» til alle lagene fordeles normalt, og de 64 lagene i turneringen består av de «sterkeste» lagene i øvre hale av denne fordelingen. Jeg vil bruke denne styrkefunksjonen for resten av denne diskusjonen.

Beregning av sannsynligheter for riktige valg

Gitt hvilken matrise P av sannsynligheter vi velger, kan vi bruke den til å beregne den resulterende fordelingen av seedet som vant et bestemt spill i turneringen. Hvis og er 16-elements kolonnevektorer med () som indikerer sannsynligheten for at hjemmelaget (besøkende) i et bestemt spill er seedet i, så blir fordelingen av frøet som vinner det spillet gitt av

hvor er det elementvise Hadamard-produktet.I første runde er hver og en basisvektor. Vær oppmerksom på at det å inkludere begge termer i summeringen egentlig bare er en beregningsmessig bekvemmelighet, i det minste innenfor en region, siden for et gitt frø bare en av de to begrepene ’tilsvarende komponenter vil være ikke-null.

Av ved å bruke denne formelen iterativt for hvert spill i hver påfølgende runde, kan vi til slutt beregne sannsynligheten for at hvert frø vinner hvert spill i turneringen. Følgende Python-kode beregner for eksempel fordelingen av vinneren av et av de fire regionale mesterskapene (blant 16 lag hver):

De resulterende forventede sannsynlighetene vises i følgende figur i rødt – ved å bruke normal kvantilstyrkefunksjon over – sammenlignet med de faktiske frekvensene i blått.

Vinner av regionmesterskap: faktisk frekvens (blå) og forventet sannsynlighet (rød).

Braketscoresystemer

Nå som vi har et middel til å beregne sannsynligheten for at et bestemt lag vinner et bestemt spill, kan vi evaluere en fullført brakett ved å beregne forventet antall riktige valg i hver runde. Anta for eksempel at braketten vår bare velger favoritten (dvs. det høyere seedet) til å vinne hvert spill. Da blir forventet antall riktige valg:

  • 23.156 av 32 kamper i første runde,
  • 9.847 av 16 kamper i andre runde,
  • 4.292 av 8 kamper i tredje runde,
  • 1.792 av 4 kamper i fjerde runde regionale mesterskap,
  • 0.540 av 2 kamper i Final Four,
  • 0,156 i det siste mesterskapsspillet.

På dette punktet kan vi sammenligne forskjellige braketscoresystemer ved å sammenligne det forventede antall poeng scoret i hver runde ved hjelp av disse systemene. For eksempel viser følgende tabell de forventede poengene per runde for de to systemene som er nevnt så langt: doblingssystemet (1, 2, 4, 8, 16, 32) og Fibonacci-systemet (2, 3, 5, 8, 13 , 21), normalisert til 1 poeng per første rundespill.

Hvilket av disse eller andre systemer som er «best» avhenger av hva slags basseng du vil ha. Med doblingssystemet (eller enda større progresjon ), kan du ha et «spennende» hesteveddeløpspool, med blyendringer og flere bidrag som har sjanse til å vinne gjennom alle seks rundene. Med Fibonacci-systemet (eller enda mer gradvise progresjoner) kan du ha et basseng som belønner forskning og nøyaktig prediksjon av tidlige forstyrrelser… men en slik pool kan være effektivt over før Final Four.

Tillegg: Historiske data

Følgende matriser inneholder oversikten over alle gevinster og tap, etter runde og seed match-up, for de 31 turneringene i gjeldende format fra 1985 til 2015. Først, følgende 16 × 16 matriser angir antall regionale spill – det vil si i første til fjerde runde – der frø jeg slo frø j. Vær oppmerksom på at runden hvert spill ble spilt også implisitt bestemmes av matchfrøet (f.eks. 1 mot 16 er i første runde osv.).

 0 21 13 32 30 6 4 51 56 4 3 19 4 0 0 124 21 0 23 2 0 23 53 2 0 26 12 1 0 0 117 0 8 14 0 2 2 38 7 1 1 9 25 0 0 104 1 0 15 4 3 0 36 2 2 3 2 2 0 21 99 0 0 0 7 3 1 30 0 1 0 0 1 1 0 80 11 0 0 0 2 6 28 1 0 0 3 0 0 4 81 0 0 13 0 0 0 20 5 2 0 3 0 0 0 76 0 0 0 1 2 0 12 3 0 5 2 1 1 0 63 0 0 0 1 0 0 0 5 1 0 0 1 0 0 61 0 0 0 0 1 0 0 0 0 18 4 0 0 2 48 0 0 0 0 0 0 1 4 0 3 1 13 0 0 43 3 0 0 2 0 0 0 5 0 0 0 0 0 12 44 0 0 1 0 0 0 0 8 0 0 0 0 0 0 25 3 0 0 0 0 0 0 3 0 0 0 0 0 0 20 0 0 2 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Følgende matrise, i samme format, er for (femte runde) Final Four-kamper:

 12 6 2 5 1 0 1 1 1 0 0 0 0 0 0 0 4 2 3 1 0 1 0 0 0 0 1 0 0 0 0 0 4 2 0 2 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Og til slutt for mesterskapsspill:

Leave a Reply

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *