Over de Pionrating en Elo

Tijdens de laatste ALV werd voorgesteld om de uitslagen van de interne competitie op de geven bij de bond, voor ratingverwerking. Dit voorstel werd niet aanvaard. Een aantal leden had echter de behoefte om toch een indicatie te krijgen van hun prestatie. Je hoeft niet perse kampioen te worden van een groep om (voor jouw doen) toch een puike prestatie neer te kunnen zetten. Vroeger werd een “Pionrating” bijgehouden naar de resultaten van de interne competitie en het Open Kampioenschap (nu bekend als Visie Cup).

Na een kort onderzoek bleek het niet mogelijk om eenvoudig de ratings te verwerken in onze standentabellen. Samenvattend: de uitslagen / tabellen worden bijgehouden in een database van een externe instantie, en die kunnen we niet zomaar veranderen. Dat is jammer, maar het is wel mogelijk om op basis van die tabellen verwachte prestaties in termen van ELO rating te herleiden. Dat is wat bovengekrabbelde heeft gedaan, en gepubliceerd onder PionRating lijst na 1e seizoenshelft.

De Pionrating zal voor volgende seizoenshelften altijd een afgeleide blijven van de rating die wordt gegeven in de standentabel (die waarschijnlijk van de KNSB afkomstig zal zijn). Het is in die zin alleen een TPR voor een seizoenshelft, er wordt verder niets mee gedaan. De Pion rating is berekend in een Excel sheet op basis van kopieen van standentabellen van De Pion, en mathematische formules van WIKI pagina’s. Zowel de Harkness als Elo berekening is toegepast, en de vergelijkbare uitkomsten schenken mij vertrouwen in de correctheid ervan. De berekende FIDE TPR is gecontroleerd aan de hand van de gegevens van het huidige TaTa steel toernooi. Indien gewenst kan ik deze Excel sheet verstrekken.

Het komende stuk van dit artikel gaat over Elo ratings, en wat dat nu eigenlijk inhoud. Iedereen kent het, maar wat het nu echt is kunnen maar weinig clubleden vertellen.

Elo is de achternaam van Arpad Elo, een natuurkundige die ergens midden in de vorige eeuw het toen gangbare “Harkness” systeem (dat erg vergelijkbaar is) wilde verbeteren. De verschillen in deze systemen zijn marginaal. De essentie van het Elo systeem is dat de kans dat de ene speler kan winnen van een andere speler bepaald wordt. Die winstkans wordt gekoppeld aan een ratingverschil. Voor even sterke spelers is de kans natuurlijk 50%. Elo definieert dat ratingverschil van 200 punten correspondeert met een winstkans van 75% voor de sterkste speler. De grafiek verloopt logaritmisch – bij 800 punten verschil is die kans 99%.

Dat is leuk, zo’n systeem, maar hoe koppel je een rating aan een persoon? Hoe weet je wie welke rating zou moeten hebben? Als twee spelers met een ratingverschil van 200 punten een match spelen van 10 partijen, dan zou de sterkste speler volgens de kansberekening van Elo 7,5 punt (75%) moeten halen. Uit dat soort matches kun je dus een ratingverschil tussen twee personen herleiden. In de praktijk spelen mensen echter niet vaak matches van één tegen één, maar spelen ze allemaal tegen elkaar in een toernooi. Het gaat niet lukken om zomaar de onderlinge kansen van iedereen ten opzicht van iedereen te bepalen. Hoe ga je überhaupt beginnen met het uitdelen van ratings?
Elo Arpad is een natuurkundige (een wetenschapper), en hij accepteert daarom dat hij er naast kan zitten met zijn Elo-schatting van de kans dat de ene speler van de andere wint. Alleen wil hij wel dat als is gebleken dat hij ernaast zat, de ratingverschillen tussen de spelers wordt gecorrigeerd. Bij een volgende partij zal dan zijn schatting van de winstkans verbeterd zijn ten opzichte van de vorige schatting. Als hij er een klein beetje naast zit, dan moet er een kleine wijziging zijn, en als hij er flink naast zit, een wat grotere wijziging. De volgende grafiek legt het verband tussen de ratingverschillen en correctie van ratings na een partijuitslag.

Mocht je veel sterker zijn dan je opponent (helemaal links in de grafiek), dan krijg je er geen ratingpunt bij als je wint. Logisch, want je winstkans was toch al 100%. Verlies je die partij echter, dan was je winstkans duidelijk niet 100%, en verlies je het maximale aantal punten. Dat maximum is ook wel bekend als de k-factor, die normaliter 32 is. Voor je opponent die als veel zwakker was ingeschat geldt het omgekeerde (helemaal rechts in de grafiek): die krijgt na een winst een k-factor van 32 punten bij zijn (of haar) rating opgeteld. De wijziging tussen de twee spelers onderling is dan na een enkele partij 2×32 = 64 punten.
De correctie verloopt evenredig met de ingeschatte winstkans. Indien de spelers even sterk zijn is die correctie dus 50% winstkans * k-factor (32) = 16 punten. Voor remises wordt de correctie gehalveerd, en een remise tegen een veel sterkere speler is dan ook even veel waard als winnen van een gelijkwaardige tegenstander.

Door die correcties maakt het eigenlijk niet heel veel uit welke rating je aanvankelijk krijgt toebedeeld. Er zijn echter wel een behoorlijk aantal partijen nodig voor je een rating hebt die dusdanig gecorrigeerd is dat die redelijk betrouwbaar voorspelt wat je winstkansen zijn ten opzichte van elke willekeurige andere speler. Een hoge rating betekent dat je tegen veel mensen kans hebt om te winnen, en Elo rating wordt dan ook vaak speelsterkte genoemd. Het blijft natuurlijk maar een sterk vereenvoudigde weergave van wat “speelsterkte” tijdens een partij inhoud.

Wel geeft Elo berekening voor een seizoenshelft de mogelijkheid voor bookmaker te spelen over wie nu welke score gaat halen. Op basis van de ratings van de spelers die in een groep zijn ingedeeld kunnen alle onderlinge ratingverschillen bepaald worden, en daarna dus weer hoeveel punten iemand in principe zou scoren op basis van die ratingverschillen. Zo zijn ook de gepubliceerde “Elo verw” waarden bepaald.

Het Elo rating systeem is een model dat de werkelijke wereld representeert, en gewoonlijk wordt een model pas begrepen als de beperkingen ervan worden begrepen. Daarom nog wat kanttekeningen:

1. Bij een verschil van 700 of meer wordt er eigenlijk van uitgegaan dat de upperdog altijd wint. Is dit verschil groter dan 700 punten en wint de underdog, dan blijft de stijging of daling qua rating gelijk. Dus stel dat onze competitieleider Ger (1235) remise speelt tegen A-groeper Charles (1989), dan stijgt Ger maar liefst 16 punten in rating. Echter speelt hij remise tegen IGM Magnus Carlsen, dan krijgt hij er nog steeds maar 16 bij. Een winstpartij op Charles is dus voor Ger twee keer meer waard dan een remise tegen Carlsen.

2. Het systeem van Elo is gebaseerd op kansberekening, en dus op grote aantallen om nauwkeurig te zijn. Dit vereist ook dat er grote aantallen spelers zijn, en dat iedere speler speelt tegen zowel sterkere als zwakkere spelers. De huidige ratings van de spelers van De Pion zijn gebaseerd op partijen met mensen buiten de club – in de externe competitie of op toernooien. In de externe competitie zullen beide teams uit dezelfde klasse zullen ongeveer de ratingvolgorde opstellen. Dientengevolge zal iemand in de externe doorgaans spelers tegenkomen met ongeveer dezelfde rating – zeg een verschil kleiner dan 150 punten. Op de hoogste en laagste borden zal dat geregeld anders zijn, maar dat beschouw ik nu als uitzonderingen. Op toernooien wordt er vaak een keizersysteem of iets dergelijks gebruikt, dat er voor zorgt dat in de meeste ronden spelers met een gelijke score – dus ongeveer gelijke rating – tegen elkaar spelen.Wanneer we in de A,B en C-groepen het verschil van de rating van een speler bepalen met de gemiddelde rating van die groep, dan is de standaarddeviatie 162 punten. Dat houdt in dat 68% van de spelers een rating heeft die minder dan 162 punten afligt van het groepsgemiddelde, en dus heeft 32% van de spelers een rating die nog verder van het groepsgemiddelde afligt. Voor mijn onderbuikgevoel is dat tamelijk fors. Ik vermoed dat de ratingverschillen in de interne competitie door de bank genomen fors groter zijn dan in de externe competitie of in toernooien. Zolang het verschil tussen de hoogste en laagste rating binnen 700 punten blijft, zou dat voor de berekening van het Elo systeem niet uit moeten maken, maar of de populatie van de Pion groot en divers genoeg is betwijfel ik.

3. Metingen hebben uitgewezen dat in de praktijk de zwakkere speler een klein voordeel heeft ten opzichte van de mathematische elo-curve. Sterke spelers zijn immers ook maar mensen, en die maken ook wel eens een foutje. Een foutje kost hun echter wel een gepeperde rating. Zolang iedereen tegen zowel sterkere als zwakkere spelers speelt, is dit voor iedereen nagenoeg gelijk. Maar uiteindelijk zijn er natuurlijk altijd de allersterkste spelers, die praktisch alleen tegen zwakkere spelen, of tegen een gelijkwaardige opponent – die hebben het ietwat onevenredig zwaar. Hier telt ook mee dat bij jonge talenten de waarde van hun rating achterloopt op hun daadwerkelijke kans om te winnen. De FIDE rating berekening houdt hier rekening mee door voor verschillende spelers een verschillende k-factor te gebruiken. Na een partij is dan de stijging van de ene speler ongelijk aan de daling van de andere speler:
a. K = 30 (was 25), voor een speler die nieuw is op de ratinglijst, wat wil zeggen minder dan 30 partijen heeft gespeeld.
b. K = 15, voor spelers die nooit boven 2400 zijn geweest.
c. K = 10, voor spelers die een gepubliceerde rating van boven 2400 hebben gehad, en minstens 30 partijen hebben gespeeld. Daarna blijft het 10.

Bij de NBSB/ KNSB genieten de Pion spelers met een hoge rat
ing deze bescherming niet, ondanks dat zij de sterkste zijn binnen de populatie van De Pion. Het is waarschijnlijk geen toeval dat de spelers die op de gepubliceerde PionRating lijst het meest hebben verloren, qua rating met kop en schouders uitsteken boven hun medespelers in een groep. Zij betalen waarschijnlijk de prijs voor het te kleine aantal mensen met gelijkwaardige ratings binnen die groep (of onze vereniging). Het opgeven van interne uitslagen aan een bond lijkt een structureel nadeel te zijn voor de sterkste spelers van De Pion. Het is een nadeel zonder echte voordelen, omdat iedereen op de club al een rating heeft, voor niemand bij de senioren is het noodzakelijk om een X aantal partijen te halen om een rating te krijgen.

Opmerkingen, vragen en suggesties zijn welkom.

Geef een reactie Reactie annuleren