Neue IPR-Spielereien - Ist Spitzenschach ein Glücksspiel?

Michael Adams Michael Adams Stefan64 - Wikipedia

Ken Regan hat neue IPR-Daten für insgesamt zwölf Superturniere veröffentlicht, mich per email informiert und vorgeschlagen, dass ich darüber was schreiben könnte - Fortsetzung zu meinem ersten Beitrag. Auch beruflich habe ich mitunter das Problem "tolle Daten, was genau kann man damit machen?". Das wird keinesfalls ein wissenschaftlicher Artikel mit 1) klarer Fragestellung ("aim of this study"), 2) sauberer und strukturierter Diskussion, 3) klaren Schlussfolgerungen ("Conclusions"). Stattdessen ein bisschen Kraut und Rüben und eine Mischung aus objektiven Daten und subjektiven Meinungen dazu.

 Zum ersten Beitrag bekam ich zwei private Reaktionen. Ein Leser meinte, dass ihm zum richtigen Verständnis die mathematischen Grundlagen fehlen; ein anderer hat diese Grundlagen und wollte genau(er) wissen, wie IPRs eigentlich berechnet werden. Der Ansatz ist, Züge von Menschen automatisiert mit denen von Computerprogrammen zu vergleichen - je mehr Übereinstimmung, desto besser, desto höhere IPR. Perfektes Spiel wird mit einer IPR von weit über 3000 belohnt (derzeit 3475, Details ändern sich da Regan seine Methode stets leicht ändert); in menschlichen Partien ist AE ("average scaled error per move") nie Null, daraus ergeben sich IPRs im Bereich der menschlichen Elozahlen. Zum mathematischen Hintergrund verweist Regan auf diesen wissenschaftlichen Artikel (den ich allenfalls überflogen habe). Das ist offenbar nicht mehr der allerneueste Stand; Regan schrieb mir dass er gerade entdeckte, dass die "ratio of Arsechs" vermutlich besser funktioniert als sein derzeitiger logarithmischer Ansatz ["Well that looks almost like a naughty word in German but it means the inverse hyperbolic secant function, which is log(1/x + sqrt{1/x^2 - 1})."].

Muss man das alles wissen und verstehen? Auch bei Urteilen von Engines wissen allenfalls Insider, auf Basis welcher Algorithmen Houdini eine Stellung mit +0.3, +0.7 oder +1 beurteilt - und Stockfish dieselbe Stellung aufgrund derselben Varianten mit +0.7, +1 oder +1.5. Die meisten Schachspieler 'vertrauen' diesen Zahlen einfach - egal wie sie Engines nutzen (Eröffnungsvorbereitung, Analyse eigener Partien, Liveübertragungen von Turnieren). Man sollte sich dennoch die Varianten anschauen und sich selbst ein Urteil bilden, wie reell, vielversprechend und ausbaufähig der weisse Vorteil wirklich ist. Genauso müsste man sich zu Regans IPRs eigentlich die Partien anschauen. Es betrifft aber 693 Partien bzw. 39,794 Halbzüge - selbst mit einer Minute pro Partie oder einer Sekunde pro Zug wären das ca. 11 Stunden, das sprengt den Rahmen dieses Beitrags! Was ich ein bisschen machen werde ist, die Zahlen auf Basis eigener Meinungen und (Vor)Urteile über die betroffenen Spieler  interpretieren. Auch Regan schreibt, dass "taktische Spieler" wohl tendenziell niedrigere IPRs haben: Sie streben nach oder bekommen komplizierte Stellungen, in denen sie unmöglich immer den besten Zug finden können - der Gegner aber eben auch nicht. Und - wie schon im ersten Beitrag angedeutet - man muss nur besser spielen als der Gegner.

Die 12 Turniere sind in der nächsten Grafik genannt, 23 Spieler waren jeweils bei mindestens drei dieser Turniere dabei - in alphabetischer Reihenfolge Adams, Anand, Aronian, Carlsen, Caruana, Dominguez, Gelfand, Giri, Grischuk, Ivanchuk, Kamsky, Karjakin, Kasimdzhanov, Kramnik, Leko, Mamedyarov, Morozevich, Nakamura, Ponomariov, Radjabov, Svidler, Topalov und Wang Hao. Die erste Frage ist eine doppelte: 1) Ist Regans Modellansatz realistisch? 2) Geben Elozahlen ein realistisches Bild der Spielstärke (definiert im Vergleich zu den perfekten Engines)?

Turniere IPR

Generell gilt: je stärker das Turnier, desto höher das Niveau - jedenfalls im Durchschnitt für alle Spieler und alle Partien. Regan schreibt dann auch "it shows the overall reasonableness of the model". Das gilt zumindest für Superturniere mit mindestens acht Teilnehmern - Baden-Baden (6 Spieler) und Zürich (4 Teilnehmer) hat Regan nicht ausgewertet, da ist es eher möglich, dass relativ viele Spieler besonders gut oder besonders schlecht drauf sind was den IPR-Gesamtschnitt stark beeinflusst. Was weiterhin auffällt: Tal Memorial war - nach dem Kandidatenturnier - das zweitstärkste Turnier, aber in Moskau war das Niveau der Partien relativ höher. Vier Turniere der Grand Prix Serie waren vergleichbar stark besetzt aber von variablem Niveau. Sicher Zufall, dass in der ehemaligen Sowjetunion (Russland und Uzbekistan) das beste Schach gespielt wurde.

Bereits erwähnt: man muss vor allem besser spielen als der/die jeweilige(n) Gegner - das gilt nicht nur für Tal Memorial, sondern generell oder zumindest im Groben und Ganzen für alle 12 Turniere:

Spieler Delta IPR

"Delta IPR" ist hier die Differenz zwischen der eigenen und der gegnerischen IPR. Wie bereits erwähnt, Gelfand beim Tal Memorial und Adams in Dortmund sind - nach dieser Methode - die überzeugendsten Turniersieger. Gelfands Erfolg ist noch etwas höher einzuordnen, da das Turnier unglaublich stark besetzt war und die Spieler die Elo-Erwartungen voll erfüllten. Dominguez in Thessaloniki und Topalov in Zug sammelten dagegen fleissig Punkte, ohne viel besser zu spielen als ihre Gegner? In Thessaloniki gewann Dominguez mit 8/11 - nicht nur aber vor allem die geteilten Zweiten Caruana und Kamsky (7.5/11) haben da sensu Regan deutlich besser gespielt. Auch in Zug spielten Caruana und Kamsky - im Vergleich zu ihren Gegnern - besser als Topalov. Relativ gute IPR-Noten bekamen auch Leko (2858) Ponomariov (2907) in Zug - da gab es vermutlich einen Bonus für korrektes aber etwas risikoscheues Schach? Am überraschendsten ist Radjabovs IPR in Zug (2872, allerdings Delta -80 und nur 4.5 Punkte aus elf Partien). Was bei diesen beiden Turnieren genau los war, dafür müsste "man" (nicht unbedingt ich) zweimal 66 Partien näher untersuchen. Nach seinem Sieg in Zug sagte Topalov - für ihn ungewöhnlich bescheiden - dass er jede Menge Glück hatte.

Carlsen spielte bei seinen Siegen in Wijk aan Zee und London (die erste) auch nur etwas besser als seine Gegner - da könnte eine Rolle spielen, dass ein Fehler oder eine Ungenauigkeit oft reicht, um gegen ihn zu verlieren. Kramnik ist laut dieser Grafik der Pechvogel der letzten 12 Monate: In Dortmund spielte er prima, sein Pech dass Adams mehr als prima spielte. Beim London Classic bestätigt diese Grafik den Eindruck einiger Experten (den ich teile wobei ich kein Experte bin), dass er den Turniersieg mindestens genauso verdient hatte wie Carlsen. Nach seinem Sieg beim Weltcup meinte Kramnik: "Ich wurde letztes Jahr fünfmal Zweiter [gemeint waren wohl die letzten zwölf Monate einschliesslich der Olympiade], da wäre es schmerzhaft gewesen, hier im Finale zu verlieren."

Zum Carlsen - Kramnik Vergleich gehört natürlich auch das Kandidatenturnier. Den Zahlen nach spielte Carlsen (IPR 2936, Delta 180) da besser als Kramnik (IPR 2777, Delta 40), wobei Kramnik - wiederum nach von mir geteilter Expertenmeinung - das interessantere und gehaltvollere Schach spielte.

Was Carlsen von allen anderen unterscheidet ist seine Konstanz: immer IPR über 2800, immer besser als seine Gegner. Vielleicht gibt es irgendwann noch Teil II dieses Beitrags mit detaillierten Vergleichen - heute untersuche ich vor allem generell wie (in)stabil die 23 Spieler spielten, d.h. die Standardabweichungen der IPRs. Für mathematisch wenig bewanderte Leser, vorab die IPR-Daten für die beiden extremsten Spieler - damit sollte klar werden was gemeint ist:

Carlsen 2809 2850 2936 2904 2937

Kasimdzhanov 2364 2924 2661 2877

Spieler IPR Standarddev

Zwei Arbeitshypothesen wären: Die besten Spieler (nach Elo) sind auch die konstantesten Spieler sowie "es gibt keinen Zusammenhang". Ersteres gilt nur für DEN besten und DEN schlechtesten Spieler, zweites stimmt irgendwie auch - aber die Grafik suggeriert doch eher "je besser desto wechselhafter". Eine niedrige Standardabweichung kann hier alles bedeuten: konstant gut, konstant mittelmässig oder konstant schlecht. Offenbar kann man nicht konstant auf höchstem Niveau spielen (Ausnahme Carlsen), andererseits: je mehr Schachverständnis, desto eher kann man auch mal ein klasse Turnier erwischen? Kasimdzhanov ist wohl ein Sonderfall: für mich war, ist und wird er kein Spieler der absoluten Weltklasse - bei der Grand Prix Serie war er dabei da Taschkent eines der Turniere ausrichtete. Als Sekundant ist er dagegen Weltklasse - siehe Deutschland bei der Mannschafts-EM, Anand wird ihn beim WM-Match vielleicht vermissen. Damit ist er auch theoretisch beschlagen - für ihn ist es sehr wichtig, ob er seine Varianten und Stellungen aufs Brett bekommt oder nicht?

Weiterhin fällt auf, dass vor allem die älteren Spieler starke Formschwankungen zeigen. Warum Caruana hier direkter Nachbar von Anand ist, darüber werde ich noch spekulieren. Was bei Radjabov los ist, weiss allenfalls er selbst. Ivanchuk gehört langfristig auch "nach oben in der Grafik" - die letzten zwölf Monate spielte er aber immer vergleichsweise schlecht. Karjakin ist offenbar nach Carlsen der konstanteste Spieler der absoluten Weltklasse - deshalb ist er auch im Kandidatenturnier dabei (die Elo-Konkurrenten Radjabov, Caruana und Nakamura hatten alle mal ein Formtief).

Nun hatte ich die Idee, Standardabweichung gegen Alter zu plotten:

Alter IPR Standarddev

Siehe da, es gibt offenbar einen generellen (wenn auch statistisch nicht signifikanten) Zusammenhang. Einige Spieler halten sich nicht an die Regeln. Kasimdzhanov und Radjabov sind Sonderfälle. Bei Ivanchuk muss man abwarten, ob er demnächst wieder zu Superergebnissen in der Lage ist oder ob er sich - wie zuletzt offenbar Shirov - langsam aber sicher aus der absoluten Weltspitze verabschiedet; ich würde beide vermissen. Caruana hatte zwei schlechte Turniere von sechs. Während Wijk aan Zee war er selbst krank und, wie er in einem Interview mit dem Magazin des niederländischen Schachverbandes sagte, seine Mutter schwer erkrankt. In Dortmund war es vielleicht der 2800-Fluch: kaum hatte er diese Live-Rating lief fast gar nichts mehr für ihn. Die vier anderen Turniere spielte er auf konstant hohem Niveau (IPR 2828 +- 45), da wo er altersmässig und überhaupt hingehört?

Die Grafik suggeriert auch, dass man ab 35 Jahren zwangsläufig Höhen und Tiefen erleben wird - davor noch nicht unbedingt, danach geht es zwar nicht unbedingt bergab aber es wird eine Berg- und Talfahrt? Heisst das, dass Leko in einem Jahr öfter verlieren aber auch öfter gewinnen wird? Wie es der Zufall will, feiert er heute (8.9.) seinen 34. Geburtstag. Aber es ist auch, sicher bei ihm, eine Stilfrage.

Soweit für heute - wie bereits angedeutet kommt vielleicht noch Teil II. Ideen, was man noch untersuchen könnte, gerne per Kommentar!

 

Kommentare   

#1 Schmidt 2013-09-09 18:15
Wenn man daraus eine App basteln könnte, wäre das IPR ein hübsches Gimmick für Clubspieler - endlich hätte man den mathematischen Beweis, dass man ja eigentlich viel stärker ist, als die eigene Wertungszahl vermuten lässt.
Was die Super-GMs angeht: Wenn man das IPR noch weiterentwickeln würde, ließe sich daraus ein ziemlich spannendes Analyse-Instrument basteln: Welche Spieler performen in welchen Stellungstypen und in welchen Endspielen schlecht? Wie stark beeinflusst Zeitnot die Spielstärke einzelner Spieler? Wenn im Schach mehr Geld drinstecken würde, wären solche Analysemethoden sicher schon weit verbreitet. Aber vielleicht wenden Carlsen und Anand ja auch bereits ähnliche Methoden an.
#2 Thomas Richter 2013-09-10 18:16
@Schmidt: Eine "App für alle" wird es wohl vorläufig nicht geben, dafür ist die Methode zu zeitaufwendig. Ich habe bei Ken Regan nachgefragt: ein voller Test dauert pro Partie 4-6 Stunden (Annahme 32 relevante Züge, z.B. für 1.e4! c5 2.Sf3! Sc6 3.d4! gibt es keine IPR-Bonuspunkte). Ein Clubspieler könnte allenfalls untersuchen, ob er in einer Partie wirklich briliant spielte - oder auch ob der Gegner verdächtig briliant spielte.

Zum zweiten Absatz: Das oder ähnliches nennt Regan selbst als mögliche Anwendungen seiner Methode (hatte ich im ersten Artikel bereits erwähnt), neben der leider bekanntesten auf die ich anspielte: "cheating investigations". Ich vermute stark, dass Weltklassespieler sich - auch ohne IPR-Berechnungen - auch so auf spezielle Gegner vorbereiten, d.h. in deren Datenbank-Partien nach solchen Schwachpunkten suchen. Wenn ich das richtig in Erinnerung habe, sagte Kramnik mal, dass Anand mit Springern unglaublich stark und gefährlich ist oder zumindest war - derlei subjektive Wahrnehmungen kann man vielleicht mit entsprechend gefilterten IPR-Daten testen?
Aber was macht man dann gegen Vishy, wenn man selbst ein Freund des Läuferpaars ist?

Die Teilnahme an unserer Kommentarfunktion ist nur registrierten Mitgliedern möglich.
Login und Registrierung finden Sie in der rechten Spalte.