Elo rankings

"We rate ability in men by what they finish, not by what they attempt"

In alle vormen van topsport hebben mensen sterk de neiging te kijken naar wie de "nummer 1" is en dit in prachtige lijstjes samen te vatten. Verscheidene spelers hebben het als doel op zich gesteld om nummer 1 van zo’n lijstje te komen. Federer bijvoorbeeld vond het tijdens zijn verjaardag toch wel hoog tijd om maar weer eens de hoogste positie op de tennislijst te veroveren. Het lijstje van Brawl, de Power Rankings, staat al enige tijd ter discussie en momenteel wordt getest of het Elo systeem een goed alternatief is. Maar wat is Elo, hoe werkt het en zou het zin hebben om voor Melee hetzelfde systeem te hanteren?

Het Elo systeem, vernoemd naar schaker en bedenker Arpad Elo, is vooral bekend als manier om de onderlinge sterkte van schaakspelers te meten. In plaats van enkel te kijken naar hoeveel partijen een speler gewonnen heeft, kijkt het ook naar de sterkte van de tegenstanders. Je kunt natuurlijk niet naar een combo van iemand kijken en dan vaststellen dat hij een rating van, ik noem maar wat, 2341 zou hebben. Er wordt daarom gekeken naar de huidige rating van een speler en die van zijn tegenstanders, en welke partijen hij wint en verliest. Hieruit wordt vervolgens zijn nieuwe rating berekend.

Uiteraard is het nodig dat als een speler voor het eerst op de lijst komt, hij een rating meekrijgt. In het geval van de Brawl lijst heb ik iedere nieuwe persoon een rating van 1500 gegeven onder het mom van objectiviteit. In de officiële lijsten van bijvoorbeeld schaken krijgt een nieuwe speler een ingeschatte rating (waar dat dan weer op gebaseerd is weet ik niet), en een hoge K-factor (zie onder).

Waarschuwing! De volgende paragraaf bevat veel wiskunde. Lezen op eigen risico.

Als speler A sterkte PA heeft en Speler B sterkte PB, dan wordt de verwachte winstkans SE berekend door de eerste vergelijking:

CodeCogsEqn.gif


De verwachte winstkans is een getal tussen de 0 en de 1 dat aangeeft hoe groot de kans is dat je van de tegenstander wint (0.5 = gelijke kans, 0.75 = 75% winstkans etc.). De winstkans werkt volgens een logaritmische schaal[1], en een verschil van 120 punten is ongeveer een factor 2 verschil in sterkte met de tegenstander. Vervolgens wordt in de tweede vergelijking de daadwerkelijke score S vergeleken met de verwachte winst, oftewel, hoeveel je boven of onder verwachting hebt gepresteerd. Je oude rating PO wordt dan vervolgens aangepast met deze onder-/overprestatie naar je nieuwe rating PN. De variabele K is een manier om de hoeveelheid verandering aan te passen, een grotere K waarde zorgt ervoor dat de rating van een speler meer verandert, en een lagere minder.

Een rekenvoorbeeld:
Jouw rating is 2000. Je tegenstanders hebben een rating van 2100, 1600 en 1800. Je resultaten zijn respectievelijk winst, verlies en winst.
De verwachte kansen zijn: 0.361, 0.909 en 0.760
De verwachting is dus dat je 2.03 partijen zal winnen.
Je hebt 2 partijen gewonnen dus je hebt -0.03 onder verwachting gespeeld.
Je nieuwe rating zou dan 2000-0.03*K zijn.

Een groot nadeel van het Elo systeem is dat je rating enkel verandert als je daadwerkelijk speelt. Als je dus een lange tijd niet speelt, zal je rating een minder goede weergave zijn van je daadwerkelijke sterkte. Ook kunnen spelers ervoor kiezen om alleen deel te nemen aan toernooien waar de tegenstand zwak is, om zo makkelijk punten binnen te halen. Een ander nadeel, dat specifiek van toepassing op Smash is, is dat je in onze double elimination brackets lang niet alle deelnemers tegenkomt. Niet alleen betekent dit minder matches om de rankings op te baseren, maar ook kan het in gevallen waar het "steen-papier-schaar" effect optreedt voor fouten in de rankings zorgen: Stel, Amsah verslaat (bijna altijd) Adam, Adam verslaat Zgetto en Zgetto verslaat Amsah. Als Amsah en Zgetto elkaar dan niet treffen in een toernooi zal Amsah een betere score krijgen (en Zgetto een slechtere) dan hij eigenlijk had moeten halen. Tot slot zijn er hier weinig toernooien, waardoor het langer duurt voordat de ratings accuraat genoeg zijn. Onder die omstandigheden heeft een toernooi dat om wat voor reden dan ook afwijkt van de norm al snel een grote impact op de lijst.

Waarom zou je überhaupt moeite doen de sterkte van spelers wiskundig te benaderen als je personen met genoeg kennis van de spelers ook een lijst kunt laten opstellen? Dit is een stuk eenvoudiger en vraagt geen wiskundige kennis van de samensteller. Zo heeft de Melee community een lijst samengesteld door Marc (aangevuld met de meningen van de rest van de scene), en iedereen lijkt tevreden te zijn over die lijst. Waarom heeft Brawl dan niet een dergelijke lijst? Het grootste argument tegen een dergelijk samengestelde lijst is dat er subjectieve elementen in zitten ('Die speler komt wel ongeveer daar') en dat de samenstellers zelf ook op de lijst kunnen staan. Dit is dan ook de reden dat Brawl nu een experimentele Elo rating lijst heeft. De lijst is echter nog erg jong en het zal waarschijnlijk nog wel even duren voordat het de officiële Power Rankings van Brawl zal vervangen.
Log In of Registreer om te reageren.